Технические науки / 11. Робототехника
Д.т.н. Колдаев В.Д., Павлов Р.И.
Национальный исследовательский университет «МИЭТ», Россия
Использование
метода линейного предсказания при голосовой идентификации
Системы
биометрической идентификации человека основаны на принципе распознавания и
сравнения уникальных характеристик человеческого организма: отпечатков пальцев,
рисунка сетчатки глаза или индивидуальных особенностей голоса. Голосовая
идентификация является одной из ветвей развития технологии обработки речи и
применяется при создании различных систем охраны и разграничения доступа. Распознавание речи является задачей классификации
образов акустических характеристик речевых сигналов и осуществляется с помощью
следующих методов: построение самообучающихся нейронных
сетей; скрытой Марковской модели; линейного предсказания; самоорганизующихся
карт Кохонена. В системах распознавания речи выделяются два основных
блока:
·
блок акустического
анализа, предназначенный для выделения информативных акустических характеристик
речевого сигнала, формирования акустического образа и набора характеристик;
·
блок классификации,
предназначенный для сравнения с акустическими моделями – эталонами.
В работе предложена
модификация метода линейного предсказания (LPC), который подразделяется два этапа. На первом этапе создается база эталонов;
записываются звуковые массивы данных из ключевых (эталонных) слов каждого
пользователя; результат записывается в базу эталонов (БЭ). На втором этапе осуществляется идентификация пользователя путем
сравнения его фразы с эталонной, записанной в БЭ [1]. Схема алгоритма модуля
определения голосовой активности (VAD) представлена на рис.1. В данном алгоритме осуществляется
описание существующей статистической базовой модели алгоритма VAD и предварительная обработка, использующая
метод вычитания уровней сигнала и подборку фильтров.
Рис.1.
Схема алгоритма голосовой идентификации пользователя
Этап
1.
Для каждой структуры n, предполагается, что чистая речь Sn ухудшена некоррелированным совокупным
шумом Vn. Взвешенный сигнал Xn на гипотезах H0 и H1 может быть представлен следующим образом [2,3]:
H0 (речевое отсутствие): Xn = Vn;
H1 (речевое присутствие): Xn = Sn + Vn .
Алгоритм
может определить периоды тишины в том случае, когда уровень фоновых шумов очень
низок, и будет бесполезен в случае, когда невозможно отличить шумную речь от
фонового шума.
Предположим,
что коэффициенты дискретного преобразования Фурье, полученные из сигнала зашумленной
речи, являются асимптотически независимыми случайными Гауссовыми переменными, и
что условная плотность распределения, может быть применима к двум гипотезам H0 и H1:
где Skn, Vkn и Xkn являются
k-ми элементами позиций М коэффициента вектора дискретного
преобразования Фурье (голоса, шума и зашумленного голоса в блоке n). Модель статистически обоснованного
алгоритма VAD, использующая логарифм отношения вероятностей, может быть
представлена соотношением:
Мощность шума каждой частоты
где
где k – фактор сглаживания (правдоподобия) для каждой частоты.
Каждый кадр n задается выражением
Этот метод
уменьшает возникновение ошибок в речи с различными областями интенсивности
голоса за счет теории отношений правдоподобия, однако увеличивается вероятность
ложного вызова и появляются проблемы со стабильностью за счет второстепенных
факторов. Производительность сильно зависит от порогового уровня – η,
поэтому часто используется адаптивный порог, с которым алгоритм показывает
хорошую производительность даже в изменяющейся во времени окружающей среде
[3,4].
Этап
2.
Для улучшения речевого сигнала в аддитивной шумовой среде используется
спектральное разложение кадра зашумленного сигнала речи и уменьшение частоты
спектральных линий: применяется метод спектрального разложения с использованием
дискретного преобразования Фурье (ДПФ).
где
После
повышения уровня мощности речи и предварительной обработки, будем считать, что
Отношение сигнал/шум принимает максимальное
значение в том случае, когда:
При этом наблюдается
значительное увеличение отношения сигнал/шум. Отметим, что предварительная
обработка обычно используется не для кодирования речи, а для генерации
расширенного речевого сигнала [2,3].
В
алгоритме голосовой идентификации с адаптивным порогом используется
статистическая модель, в которой для предварительной обработки сигнала,
используется соотношение:
где
Рис.2 Схема алгоритма
расчета адаптивного порога чувствительности
Производительность в
значительной степени зависит от использования адаптивного порога. В работе
предлагается использовать новую статистическую модель на основе алгоритма с
адаптивным порогом
Тогда, адаптивный порог будет обновляться по следующему
рекуррентному соотношению:
Биометрические системы используют для
идентификации набор характеристик человека, что является предпочтительным с
точки зрения защиты от краж, копирования или потери идентификационных признаков в системах тексто-зависимой и тексто-независимой
идентификации. В работе предложен метод
повышения эффективности систем контроля и разграничения доступа с использованием
идентификации пользователя по его голосовым характеристикам. К достоинствам
предложенного метода можно отнести: высокую точность идентификации
пользователя; низкую ошибку ложных срабатываний; небольшое количество
настраиваемых параметров.
Литература
1. Deller J.R., Jr.,
Proakis J.G., Hansen J.H.L. Discrete-Time Processing of Speech Signals. N.J.,
Prentice Hall, 1993. – 800 p.
2. Pandit M., Kitter
J. Feature selection for DTW-based speaker verification. ICASSP-98, v.2. – p.769-772.
3. Чесебиев И.А.
Компьютерное распознавание и порождение речи: учебное пособие / И.А. Чесебиев.
– М.: Форум, 2008. – 128 с.
4. Колдаев В.Д. Использование систем технического
зрения для автоматизации управления технологическими процессами // В.Д.
Колдаев. Материали за Х международна научна практична
конференция «Найновите научни постижения – 2014» (17-25 март
2014 година). Том 33: Технологии. – София: «Бял ГРАД-БГ» ООД, 2014. – С.94-97.