Современные информационные технологии/2. Вычислительная техника и         программирова­ние

 

Д.т.н. Щербань И.В., Миненко И.Г., Доброходский В.В.

ПРОГРАММА АУТЕНТИФИКАЦИИ ГОЛОСА

ПОЛЬЗОВАТЕЛЯ НА ОСНОВЕ ВЕЙВЛЕТ-АНАЛИЗА

 

Северо-Кавказский филиал Московского технического университета связи

и информатики, г.Ростов-на-Дону, Россия

 

Ключевые слова: биометрические средства защиты от несанкционированного доступа, аутентификация пользователя по голосу, вейвлет-преобразование сигнала, программные и аппаратные средства National Instruments.

 

Биометрические средства защиты от несанкционированного доступа (БСД) основаны на идентификации индивидуальных характеристик человека, и, следовательно, на сегодняшний день являются наиболее надежными [1]. Так, например, удобны в применении БСД, основанные на идентификации голоса. Регистрация голоса и преобразование в электрический сигнал традиционно осуществляется за счет встроенных в персональные ЭВМ микрофонов, а оцифровка – за счет стандартных звуковых карт. Основным же недостатком таких БСД является низкая точность идентификации, объясняемая помехами в каналах регистрации голоса, влиянием окружающей обстановки на результаты распознавания, ошибками при произнесении фраз или значительной разностью воспроизведения фраз вследствие болезни пользователя, его разных эмоциональных состояний, других факторов.

Чаще всего подобные БСД основаны на анализе формант речевых сигналов [2], или же на основе разложения этих сигналов по МЕЛ-частотным кепстральным коэффициентам [3]. Форманты характеризуют спектр сигнала и определяют концентрацию энергии в обособленной частотной области.  МЕЛ-частотные кепстральные коэффициенты также широко используются в задачах распознавания речи, так как отображают широкий диапазон информации о голосе пользователя. 

В свою очередь очевидно, что методические погрешности вышеназванных подходов идентификации голоса определяются, прежде всего, методическими погрешностями Фурье-преобразования (п.Ф.), на котором основаны и разложение по формантам и аппроксимация спектральной функции МЕЛ-коэффициентами. Так, базисной функцией при разложении в ряд Фурье является синусоида, которой, в принципе, невозможно представить перепады сигналов с большой крутизной. Характерные особенности речевого сигнала каждого пользователя не отображаются при этом существенными изменениями в частотной области, а распределяются по всей частотной оси, что делает их обнаружение по спектральным характеристикам (формантам), или же по их аппроксимациям (МЕЛ-коэффициентам) практически невозможным. Недостатком же оконного п.Ф. также является то, что при его вычислении используется фиксированное окно, которое не может быть адаптировано к локальным свойствам речевого сигнала.

Исходя из вышесказанного становится очевидным, что использование для анализа речевых сигналов вейвлет-преобразования, свободного от названных методических погрешностей п.Ф., позволит решить общую проблему  БСД идентификации голоса – проблему их низкой точности.

В программной среде LabView на графическом языке G компании National Instruments разработан программный блок защиты (ПБЗ) от несанкционированного доступа  на основе вейвлет-анализа речевых сигналов пользователя. Его структурная схема соответствует стандартной, представленной на рисунке 1. Аутентификация пользователя осуществляется путем выделения вейвлет-характеристик при частотно-временной обработке речевого сигнала.  

Частота дискретизации выбрана равной 10 КГц.  Размер носителя оконной функции должен быть соизмеримым с интервалом стационарности сигнала и, поэтому, длина скользящего временного окна равна Тс задана равной 64 мс. В каждом временном окне рассчитываются вейвлеты. Для использования в ПБЗ доступны вейвлеты Добеши 2-14 порядка, биортогональные вейвлеты, вейвлеты Хаара, койфлет и симплет вейвлеты для разных уровней детализации. По умолчанию используются вейвлеты Добеши-4 с разложением на шесть уровней детализации.  Временной интервал сдвига соседних окон tсдвига равен их длительности tсдвига = Тc =64 мс, и, таким образом, формируются  8 последовательных,  без перекрытия временных окон. Вейвлеты рассчитываются в каждом окне, что позволяет наблюдать эволюцию во времени интересуемого частотного диапазона с дискретностью 64 мс, т.е., реализовать так называемый частотно-временной анализ. Подобная организация позволяет избежать методических ошибок определения начальных моментов для анализа речевых фраз.

Детальная структурная схема разработанного ПБЗ показана на рисунке 2, а его лицевая панель – на рисунке 3. Для идентификации используются критерии максимума корреляции Пирсона

,

где ,    математические ожидания выборок,

и минимума нормы евклидова расстояния

,

для вейвлет-параметров эталонного шаблона из базы данных и исследуемого речевых сигналов. При этом считается, что каждый сигнал является случайной величиной X(t) и Y(t) соответственно и представлен в виде конечной выборки x1, x2, … , xN ;  y1, y2, … , yN.

 

Рисунок 2 –  Структурная схема разработанного ПБЗ

Рисунок 3 –  Лицевая панель разработанного ПБЗ

В ходе исследований выявлено, что выбранное ядро разложения речевых сигналов по вейвлет-функциям в общем позволило повысить точность идентификации голоса пользователя. Так, например, в условиях  моделировавшихся интенсивных внешних шумов, а также при попытках копирования голоса "эталонного" пользователя, или же при специальных ошибках при произнесении фраз "эталонным" пользователем точность идентификации составляла не менее 85%. Кроме того, возможность подбора базисного вейвлета из вышеперечисленного списка обеспечивает некоторую адаптивность разработанного ПБЗ. Так, на основе непродолжительного "обучения", можно подобрать оптимальную вейвлет-функцию для каждого шаблона из базы данных "эталонных" речевых сигналов дикторов.

Разработанный ПБЗ обладает высоким быстродействием 0,5-1,5 сек и эргономичным дизайном, реализован в виде устанавливаемого приложения со следующими минимальными требованиями: Windows XP2 или более поздние версии, RAM 512мБ и выше, ROM 1ГБ, наличие звуковой карты. Для корректной работы под управлением операционных систем семейства Windows необходимо дополнительно устанавливать дистрибутивы .NETFramework 4.5+  и  LabVIEW RuntimeEngine.

 

Рис. 3

Список литературы:

1.   Ворона В. А., Тихонов В. А.  Биометрические средства защиты доступа: Системы контроля и управления доступом, обеспечение безопасности объектов. –  М.: Горячая линия - Телеком, 2010. – 272 с.

2.   Захаров Н. Г., Тетерко В. В. Распознавание речевых образов // Радиоэлектронная техника : межвузовский сборник научных трудов / Под ред. В. А. Сергеева. – Ульяновск : УлГТУ, 2012. – 229 c. С. 138-141.

3.   Кудашев О.Ю. Система разделения дикторов на основе вероятностного линейного дискриминатного анализа  / Дис. на соиск. уч. ст. к.т.н. по спец. 05.13.11 "Математич. обеспеч. вычислите. машин, комплексов и компьютерных сетей". С.Пб.: Санкт-Петербургский национальный университет информационных технологий механики и оптики, 2014. – 158 с.

 

 

© И. В. Щербань, И. Г. Миненко, В. В. Доброходский  2016