Современные информационные технологии/2. Вычислительная техника и

программирование

 

Д.т.н. Щербань И.В., Рудый А.С., Ефименко А.А.

Северо-Кавказский филиал Московского технического университета связи

и информатики, г.Ростов-на-Дону, Россия

Реализация алгоритма биометрической

аутентификации на основе оконного

преобразования Фурье

 

Ключевые слова: биометрические средства защиты от несанкционированного доступа, оконное преобразование Фурье, МЕЛ-коэффициенты, нормализация, аутентификация пользователя, программная среда LabView National Instruments.

 

Биометрические системы защиты доступа характеризуются высоким уровнем защиты для противодействия [1]. Голосовая биометрия, в свою очередь, характеризуется следующими уникальными особенностями, объясняющими ее достоинства в сравнении с остальными биометрическими системами. Во-первых, это единственная технология, которая позволяет подтверждать личность удаленно, например, по телефону. Во-вторых, это также единственная технология, которая подтверждает активность человека, т.е. то, что разговаривает живой человек. И, наконец, в-третьих, такая биометрия характеризуется удобством применения и низкой стоимостью, так как не требует использования специальных сканирующих устройств или другой дорогостоящей аппаратуры, а технически реализуется лишь за счет встроенных в персональную ЭВМ микрофона и звуковой карты.

Несмотря на вышеперечисленные достоинства, биометрические средства аутентификации на основе анализа голосовых характеристик пользователя пока встречаются редко. Этот факт, прежде всего, объясняется сложностями и низкой точностью аутентификации в случаях допущенных пользователем неточностей фраз или интенсивных внешних шумов, вследствие изменений голоса пользователя в зависимости от возраста или настроения, или же в зависимости от состояния его здоровья или других факторов.

Проблемы низкой точности средств аутентификации на основе анализа голосовых характеристик можно объяснить следующими очевидными фактами. Здесь математическим ядром является преобразование Фурье (п.Ф), а в качестве уникальных признаков используются спектральные характеристики голоса пользователя – функции спектральной плотности или спектральной плотности мощности, или же их разложения по МЕЛ-частотным кепстральным коэффициентам или по коэффициентам Фурье. При этом известно [2, 3], что п. Ф. отображает общие сведения о частотах исследуемого сигнала в целом и не дает представления о локальных свойствах сигнала при быстрых временных изменениях его спектрального состава. Именно недостаточная информативность п. Ф. вследствие невозможности анализа уникальных особенностей (сингулярностей) нестационарных сигналов голоса пользователя и объясняет низкую точность подобных средств аутентификации. Следовательно, для временной локализации спектральных компонентов необходимо конструировать частотно-временное представление целых речевых фраз пользователя и, как известно, подобные задачи традиционно решают на основе оконного п. Ф. [2, 3].

Реализована online-программа аутентификации пользователя по его речевым фразам, позволяющая снизить методические погрешности биометрической системы управления доступом в целом. Алгоритм аутентификации предполагает при этом последовательное выполнение следующих классических действий [2-4]. Вначале осуществляется регистрация речевой фразы пользователя с помощью микрофона, ее оцифровка с частотой 10 КГц и запись в отдельный файл. Далее выделяются уникальные признаки записанной речевой фразы, также сохраняемые в отдельный файл. При попытке доступа к ПЭВМ пользователь произносит ту же фразу, где вновь выделяются уникальные признаки, сопоставляемые с ранее записанными. На основе такого сопоставления и выносится заключение о том, совпадает или не совпадает вновь предъявленный идентификатор с записанным ранее.

Программа реализована в среде LabView на графическом языке G компании National Instruments. В качестве уникальных признаков используются МЕЛ-частотные кепстральные коэффициенты. Так как амплитуды записываемых в разные моменты времени сигналов могут не совпадать вследствие разных настроек микрофона, внешнего шума, разных громкостей голоса пользователя, то используется процедура нормализации входных сигналов [4]. Здесь все значения амплитуд делятся на максимальную в рамках одного звукового файла и, таким образом, уравниваются образцы речи, записанные с разной громкостью, в диапазоне -1 до 1.

Реализована частотно-временная обработка сигнала. Длина скользящего временного окна (фрейма) равна N = 64 мс. Временной интервал сдвига соседних фреймов t равен половине их длительности t=0,5N=32 мс. Для улучшения частотного спектра на разрывах границ фреймов каждый его отсчет умножается на оконную весовую функцию Хэмминга

,

где n - порядковый номер отсчета в фрейме, для которого вычисляется новое значение амплитуды;

Nк = 640 – длина фрейма в отсчетах, измеренных за период 64мс с частотой 10 КГц.

Кепстральные МЕЛ-коэффициенты рассчитываются в каждом фрейме, что позволяет наблюдать эволюцию во времени интересуемого частотного диапазона с дискретностью 64 мс, т.е., реализовать так называемый частотно-временной анализ. Подобная организация позволяет избежать методических ошибок определения начальных моментов анализа речевых фраз.

Далее формируется обобщенный вектор, представляющий собой последовательное объединение МЕЛ-частотных кепстральных коэффициентов по каждому фрейму длиной

NS = NM × Nф,

где NM – количество МЕЛ-коэффициентов в каждом фрейме, зависящее от частоты дискретизации; Nф – количество фреймов в фразе, зависящее от длины речевой фразы.

Для сравнения и идентификации используется критерий минимума нормы евклидова расстояния

,

где x1, x2, … , xNS , y1, y2, … , yNS – МЕЛ-кепстральные коэффициенты обобщенных векторов записанной и произносимой фраз соответственно. Блок-схема реализованного алгоритма аутентификации показана на рисунке 1.

Рисунок 1 – Блок-схема соединения модулей программы

В ходе исследований выявлено, что реализованная в программе процедура позволила повысить точность аутентификации пользователя по речевой фразе. Так, например, в условиях моделировавшихся внешних шумов, а также при попытках копирования голоса "эталонного" пользователя, или же при специальных ошибках при произнесении фраз "эталонным" пользователем точность аутентификации составляла не менее 80%. В 20% случае, таким образом, требовалось проведение повторной аутентификации.

Разработанная программа online-аутентификации ПБЗ обладает высоким быстродействием 0,5-1,5 сек и эргономичным дизайном, реализована в формате устанавливаемого приложения со следующими минимальными требованиями: Windows XP2 или более поздних версий, RAM 512мБ и выше, ROM 1ГБ, наличие звуковой карты и мкирофона. Для корректной работы под управлением операционных систем семейства Windows необходимо дополнительно устанавливать дистрибутивы .NETFramework 4.5+ и LabVIEW RuntimeEngine.

 

Рис. 3

Литература:

1.   Ворона В. А., Тихонов В. А. Биометрические средства защиты доступа: Системы контроля и управления доступом, обеспечение безопасности объектов. – М.: Горячая линия - Телеком, 2010. – 272 с.

2.   Захаров Н. Г., Тетерко В. В. Распознавание речевых образов // Радиоэлектронная техника: межвузовский сборник научных трудов / Под ред. В. А. Сергеева. – Ульяновск : УлГТУ, 2012. 229 c. – С. 138-141.

3.   Ken Pohlman C. Principles of Digital Audio. – McGraw-Hill, 2005. – 860 p.

4.   Кехтарнаваз Н., Ким Н. Цифровая обработка сигналов на системном уровне с использованием LabView / Пер. с англ. – М.: Додэка XXI, 2007. – 304 с.

 

 

 

 

 

 

© И. В. Щербань, А.С. Рудый, А.А. Ефименко, 2016