Современные информационные технологии/2.
Вычислительная техника и
программирование
Д.т.н. Щербань И.В., Рудый
А.С., Ефименко А.А.
Северо-Кавказский филиал
Московского технического университета связи
и информатики,
г.Ростов-на-Дону, Россия
Реализация алгоритма биометрической
аутентификации на основе оконного
преобразования Фурье
Ключевые слова: биометрические средства защиты
от несанкционированного доступа, оконное преобразование Фурье,
МЕЛ-коэффициенты, нормализация, аутентификация пользователя, программная среда LabView
National Instruments.
Биометрические системы защиты доступа характеризуются
высоким уровнем защиты для противодействия [1]. Голосовая биометрия, в свою
очередь, характеризуется следующими уникальными особенностями, объясняющими ее
достоинства в сравнении с остальными биометрическими системами. Во-первых, это
единственная технология, которая позволяет подтверждать личность удаленно,
например, по телефону. Во-вторых, это также единственная технология, которая
подтверждает активность человека, т.е. то, что разговаривает живой человек. И,
наконец, в-третьих, такая биометрия характеризуется удобством применения и
низкой стоимостью, так как не требует использования специальных сканирующих
устройств или другой дорогостоящей аппаратуры, а технически реализуется лишь за
счет встроенных в персональную ЭВМ микрофона и звуковой карты.
Несмотря на вышеперечисленные достоинства, биометрические
средства аутентификации на основе анализа голосовых характеристик пользователя
пока встречаются редко. Этот факт, прежде всего, объясняется сложностями и низкой
точностью аутентификации в случаях допущенных пользователем неточностей фраз
или интенсивных внешних шумов, вследствие изменений голоса пользователя в
зависимости от возраста или настроения, или же в зависимости от состояния его здоровья
или других факторов.
Проблемы низкой точности средств аутентификации
на основе анализа голосовых характеристик можно объяснить следующими очевидными
фактами. Здесь математическим ядром является преобразование Фурье (п.Ф), а в
качестве уникальных признаков используются спектральные характеристики голоса
пользователя – функции спектральной плотности или спектральной плотности
мощности, или же их разложения по МЕЛ-частотным кепстральным коэффициентам или
по коэффициентам Фурье. При этом известно [2, 3], что п. Ф. отображает общие
сведения о частотах исследуемого сигнала в целом и не дает представления о
локальных свойствах сигнала при быстрых временных изменениях его спектрального
состава. Именно недостаточная информативность п. Ф. вследствие невозможности
анализа уникальных особенностей (сингулярностей) нестационарных сигналов голоса
пользователя и объясняет низкую точность подобных средств аутентификации. Следовательно,
для временной локализации спектральных
компонентов необходимо конструировать частотно-временное представление целых
речевых фраз пользователя и, как известно, подобные задачи традиционно решают
на основе оконного п. Ф. [2, 3].
Реализована online-программа аутентификации
пользователя по его речевым фразам, позволяющая снизить методические
погрешности биометрической системы управления доступом в целом. Алгоритм
аутентификации предполагает при этом последовательное выполнение следующих классических
действий [2-4]. Вначале осуществляется регистрация речевой фразы пользователя с
помощью микрофона, ее оцифровка с частотой 10 КГц и запись в отдельный файл.
Далее выделяются уникальные признаки записанной речевой фразы, также
сохраняемые в отдельный файл. При попытке доступа к ПЭВМ пользователь
произносит ту же фразу, где вновь выделяются уникальные признаки, сопоставляемые
с ранее записанными. На основе такого сопоставления и выносится заключение о
том, совпадает или не совпадает вновь предъявленный идентификатор с записанным
ранее.
Программа реализована в среде LabView
на графическом
языке G компании National Instruments.
В качестве уникальных признаков используются МЕЛ-частотные кепстральные
коэффициенты. Так как амплитуды записываемых в разные моменты времени сигналов
могут не совпадать вследствие разных настроек микрофона, внешнего шума, разных
громкостей голоса пользователя, то используется процедура нормализации входных
сигналов [4].
Здесь все значения амплитуд делятся на максимальную в рамках одного звукового
файла и, таким образом, уравниваются образцы речи, записанные с разной
громкостью, в диапазоне -1 до 1.
Реализована частотно-временная обработка
сигнала. Длина скользящего
временного окна (фрейма) равна N = 64 мс. Временной интервал сдвига соседних фреймов
t равен половине их длительности
t=0,5N=32 мс. Для улучшения частотного спектра на разрывах границ фреймов каждый
его отсчет умножается на оконную весовую функцию Хэмминга
где
n - порядковый номер отсчета в фрейме, для которого
вычисляется новое значение амплитуды;
Nк =
640 – длина фрейма в отсчетах, измеренных за период 64мс с частотой 10 КГц.
Кепстральные МЕЛ-коэффициенты рассчитываются
в каждом фрейме, что позволяет наблюдать эволюцию во времени интересуемого
частотного диапазона с дискретностью 64 мс, т.е., реализовать так называемый
частотно-временной анализ. Подобная организация позволяет избежать методических
ошибок определения начальных моментов анализа речевых фраз.
Далее
формируется обобщенный вектор, представляющий собой последовательное
объединение МЕЛ-частотных кепстральных коэффициентов по каждому фрейму длиной
NS = NM × Nф,
где NM – количество
МЕЛ-коэффициентов в каждом фрейме, зависящее от частоты дискретизации; Nф – количество фреймов в
фразе, зависящее от длины речевой фразы.
Для сравнения и идентификации используется
критерий минимума нормы евклидова расстояния
где
x1, x2, … , xNS , y1, y2, … , yNS – МЕЛ-кепстральные
коэффициенты обобщенных векторов записанной и произносимой фраз соответственно.
Блок-схема реализованного алгоритма аутентификации
показана на рисунке 1.
Рисунок 1 – Блок-схема соединения модулей
программы
В ходе исследований выявлено, что реализованная
в программе процедура позволила повысить точность аутентификации пользователя
по речевой фразе. Так, например, в условиях моделировавшихся внешних шумов, а
также при попытках копирования голоса "эталонного" пользователя, или
же при специальных ошибках при произнесении фраз "эталонным"
пользователем точность аутентификации составляла не менее 80%. В 20% случае, таким
образом, требовалось проведение повторной аутентификации.
Разработанная программа online-аутентификации ПБЗ обладает
высоким быстродействием 0,5-1,5 сек и эргономичным дизайном, реализована в формате
устанавливаемого приложения со следующими минимальными требованиями: Windows
XP2 или более поздних версий, RAM 512мБ и выше, ROM
1ГБ, наличие звуковой карты и мкирофона. Для корректной работы под управлением
операционных систем семейства Windows необходимо
дополнительно устанавливать дистрибутивы .NETFramework 4.5+ и LabVIEW
RuntimeEngine.
Рис.
3
1. Ворона В. А., Тихонов В.
А. Биометрические средства защиты доступа: Системы контроля и управления
доступом, обеспечение безопасности объектов. – М.: Горячая линия - Телеком,
2010. – 272 с.
2. Захаров Н. Г., Тетерко В. В. Распознавание речевых образов // Радиоэлектронная техника: межвузовский сборник
научных трудов / Под ред. В. А. Сергеева. – Ульяновск : УлГТУ, 2012. 229 c. –
С. 138-141.
3. Ken Pohlman C. Principles
of Digital Audio. – McGraw-Hill, 2005. – 860 p.
4.
Кехтарнаваз Н., Ким Н.
Цифровая обработка сигналов на системном уровне с использованием LabView / Пер.
с англ. – М.: Додэка XXI, 2007. – 304 с.
© И. В. Щербань, А.С. Рудый, А.А. Ефименко, 2016