Технические науки / 11. Робототехника

Д.т.н. Колдаев В.Д., Павлов Р.И.

Национальный исследовательский университет «МИЭТ», Россия

Использование метода линейного предсказания при голосовой идентификации

         Системы биометрической идентификации человека основаны на принципе распознавания и сравнения уникальных характеристик человеческого организма: отпечатков пальцев, рисунка сетчатки глаза или индивидуальных особенностей голоса. Голосовая идентификация является одной из ветвей развития технологии обработки речи и применяется при создании различных систем охраны и разграничения доступа. Распознавание речи является задачей классификации образов акустических характеристик речевых сигналов и осуществляется с помощью следующих методов: построение самообучающихся нейронных сетей; скрытой Марковской модели; линейного предсказания; самоорганизующихся карт Кохонена. В системах распознавания речи выделяются два основных блока:

·        блок акустического анализа, предназначенный для выделения информативных акустических характеристик речевого сигнала, формирования акустического образа и набора характеристик;

·        блок классификации, предназначенный для сравнения с акустическими моделями – эталонами.

В работе предложена модификация метода линейного предсказания (LPC), который подразделяется два этапа. На первом этапе создается база эталонов; записываются звуковые массивы данных из ключевых (эталонных) слов каждого пользователя; результат записывается в базу эталонов (БЭ). На втором этапе осуществляется идентификация пользователя путем сравнения его фразы с эталонной, записанной в БЭ [1]. Схема алгоритма модуля определения голосовой активности (VAD) представлена на рис.1. В данном алгоритме осуществляется описание существующей статистической базовой модели алгоритма VAD и предварительная обработка, использующая метод вычитания уровней сигнала и подборку фильтров.

Рис.1. Схема алгоритма голосовой идентификации пользователя

Этап 1. Для каждой структуры n, предполагается, что чистая речь Sn ухудшена некоррелированным совокупным шумом Vn. Взвешенный сигнал Xn на гипотезах H0 и H1 может быть представлен следующим образом [2,3]:

H0 (речевое отсутствие): Xn = Vn;

H1 (речевое присутствие): Xn = Sn + Vn .

Алгоритм может определить периоды тишины в том случае, когда уровень фоновых шумов очень низок, и будет бесполезен в случае, когда невозможно отличить шумную речь от фонового шума.

Предположим, что коэффициенты дискретного преобразования Фурье, полученные из сигнала зашумленной речи, являются асимптотически независимыми случайными Гауссовыми переменными, и что условная плотность распределения, может быть применима к двум гипотезам H0 и H1:

  ,

где Skn, Vkn и Xkn являются k-ми элементами позиций М коэффициента вектора дискретного преобразования Фурье (голоса, шума и зашумленного голоса в блоке n). Модель статистически обоснованного алгоритма VAD, использующая логарифм отношения вероятностей, может быть представлена соотношением:

.

Мощность шума каждой частоты  вычисляется следующим образом:

где ; P(H1) – вероятность того, что измеряемый сигнал xn находится в состоянии H1. При этом мощность шума может быть обновлена в каждом блоке (кадре) без вторичного использования алгоритма VAD. Однако в речи встречаются участки, где снижается мощность (громкость) голоса. Для решения данной проблемы используется теория сглаженных отношений правдоподобия:

где k – фактор сглаживания (правдоподобия) для каждой частоты.

Каждый кадр n задается выражением , где  – условная функция плотности вероятности, что Xkn находится в состоянии H1. Тогда решение о речевой активности принимается из выражения:

Этот метод уменьшает возникновение ошибок в речи с различными областями интенсивности голоса за счет теории отношений правдоподобия, однако увеличивается вероятность ложного вызова и появляются проблемы со стабильностью за счет второстепенных факторов. Производительность сильно зависит от порогового уровня – η, поэтому часто используется адаптивный порог, с которым алгоритм показывает хорошую производительность даже в изменяющейся во времени окружающей среде [3,4].

Этап 2. Для улучшения речевого сигнала в аддитивной шумовой среде используется спектральное разложение кадра зашумленного сигнала речи и уменьшение частоты спектральных линий: применяется метод спектрального разложения с использованием дискретного преобразования Фурье (ДПФ).

 где ,

где оценка мощности шума; k-й элемент M точек ДПФ вектора коэффициентов шумной речи; k, m, n выступают в качестве бинарной частоты, времени, индекса кадра, соответственно.

После повышения уровня мощности речи и предварительной обработки, будем считать, что  – сумма чистого речевого сигнала Skn; остаточный шум, т.е. . Тогда, в целях дальнейшего повышения соотношения сигнал/шум используется фильтр. Сигнал с использованием специального фильтра  определяется так: , где  – частотная характеристика соответствующего фильтра. Для нахождения , которая максимизирует соотношение сигнал/шум, считаем, что остаточный шум  в каждой точке на всей частоте является средним к мощности , и данные величины не коррелируют друг с другом. Тогда мощность шума  в  становится равной:

Отношение сигнал/шум принимает максимальное значение в том случае, когда: , где * обозначает комплексное сопряжение. Таким образом, при соответствии отфильтрованного сигнала  с каждой бинарной частотой k имеем:

.

При этом наблюдается значительное увеличение отношения сигнал/шум. Отметим, что предварительная обработка обычно используется не для кодирования речи, а для генерации расширенного речевого сигнала [2,3].

В алгоритме голосовой идентификации с адаптивным порогом используется статистическая модель, в которой для предварительной обработки сигнала, используется соотношение:

,

где  k-й элемент (М-точки) коэффициента вектора дискретного преобразование Фурье, предварительно обработанного речевого сигнала  и мощности шума , обновленных в речевых блоках при помощи повторного использования алгоритма VAD (рис.2).

Рис.2 Схема алгоритма расчета адаптивного порога чувствительности

         Производительность в значительной степени зависит от использования адаптивного порога. В работе предлагается использовать новую статистическую модель на основе алгоритма с адаптивным порогом :

, где ,

, .

Тогда, адаптивный порог будет обновляться по следующему рекуррентному соотношению: , , где  является оценкой пренебрежения;  – взвешенной оценкой.

         Биометрические системы используют для идентификации набор характеристик человека, что является предпочтительным с точки зрения защиты от краж, копирования или потери идентификационных признаков в системах тексто-зависимой и тексто-независимой идентификации. В работе предложен метод повышения эффективности систем контроля и разграничения доступа с использованием идентификации пользователя по его голосовым характеристикам. К достоинствам предложенного метода можно отнести: высокую точность идентификации пользователя; низкую ошибку ложных срабатываний; небольшое количество настраиваемых параметров.

Литература

1.       Deller J.R., Jr., Proakis J.G., Hansen J.H.L. Discrete-Time Processing of Speech Signals. N.J., Prentice Hall, 1993. 800 p.

2.       Pandit M., Kitter J. Feature selection for DTW-based speaker verification. ICASSP-98, v.2. p.769-772.

3.       Чесебиев И.А. Компьютерное распознавание и порождение речи: учебное пособие / И.А. Чесебиев. – М.: Форум, 2008. – 128 с.

4.       Колдаев В.Д. Использование систем технического зрения для автоматизации управления технологическими процессами // В.Д. Колдаев. Материали за Х международна научна практична конференция «Найновите научни постижения 2014» (17-25 март 2014 година). Том 33: Технологии. София: «Бял ГРАД-БГ» ООД, 2014. – С.94-97.