Юдін О. К., д.т.н., проф.;Зюбіна Р.В.

Національний авіаційний університет

БАГАТОКРИТЕРІАЛЬНИЙ ПІДХІД ІДЕНТИФІКАЦІЇ МОВНИХ СИГНАЛІВ

Біометричні методи захисту критичної інформації набувають все більшої популярності. Використання унікальних особливостей будови людського тіла дає можливість значно збільшити рівень захисту персональної інформації від несанкціонованого доступу. На сьогодні широко використовується біометрія на основі відбитків пальців, сітківки ока, геометрії обличчя, однак жоден з даних видів біометричного захисту не дає можливості змінювати ідентифікатор, тільки використання голосової біометрії може забезпечити зміну ідентифікатора безліч кількість разів, що в свою чергу дає їй значну перевагу з поміж інших.

Голос – це набір певних звуків, які утворюються в гортані людини під тиском повітря формуючи інформаційне повідомлення у вигляді складного гармонійного сигналу. Значна роль у формуванні характеристик аудіо сигналу, відводиться акустичним властивостям фізіологічної системи реалізації повідомлень тієї чи іншої язикової групи, яка відповідає за основні голосові (аудіо) параметри характеристик повідомлення, такі як частота основного тону сигналу, інформаційні фрейми та властивості частотного діапазону, гучність, періодичність і темп мовлення, інтонацію, тощо. Крім того, акустична специфіка системи реалізації повідомлень певної язикової групи, відповідає за логічні та лінгвістичні наголоси в словах та реченнях. [1]

Метою роботи є аналіз основних аудіо характеристик голосу людини, систематизація й організація процедур структурного представлення вокалізованого сигналу.

Актуальність використання звукових сигналів у техніці зумовлена специфічними характеристиками голосової системи, що робить голос кожної людини унікальним і завдяки цьому дає можливість використовувати його у системах біометрії.

Залежно від співвідношення амплітуд частотних складових спектра, звук приймає різне відтворення і сприймається системою ідентифікації, як тон або шум. Якщо розглядати спектральне представлення сигналу, можна встановити залежності у вигляді чітко виражених піків амплітуд гармонійних складових спектру, що системно повторюються з деяким інтервалом частот. Зрозуміло, що кожна така складова відтворює один тон сигналу та повинна сприйматися, як індивідуальна інформаційна характеристика повідомлення. У випадку, коли піки амплітуд не мають чітко вираженого характеру (гладка функція спектру) і визначити піки практично неможливо, тоді такий звуковий сигнал сприймається системою як шум.

Таким чином, основним і найважливішим параметром голосового сигналу, у розрізі науково-прикладних завдань: кодування, компресії, ідентифікації та верифікації є частота основного тону.

Основний тон – це тон (гармонійна складова) створений акустичною системою, коливання якого відбуваються з найменшою частотою. Амплітуда основного тону визначається природною частотою коливання системи, крім того основний тон вважається першою гармонікою спектрального представлення сигналу.

Обертоном називається синусна складова періодичного коливання складної форми з більш високою частотою ніж основний тон. Якщо, частоти всіх обертонів кратні частоті основного тону, то такі обертони називаються кратними гармоніками більш високих частот. У випадку, коли частоти залежать від частоти основного тону більш складним чином, то такі обертони називаються не кратними основному тону.

Спектром аудіо сигналу називається сукупність основного тону та обертонів, які є складовими сформованого складного звуку (інформаційного сигналу або корисного повідомлення).

Піки в частотній області, що виникають через квазіперіодичні коливання голосових зв’язок, називають періодом основного тону.[2]

Голос людини - це сума синусоїдальних коливань, що відтворюють інформаційне повідомлення. Залежно від психоемоційного стану особи частота основного тону та обертонів може змінюватись, однак існує базова частота основного тону – найінформативніший частотний діапазон коливань голосу людини, так для чоловіків він становить 130 ГЦ, а для жінок 260 ГЦ.

Як відомо, мовний сигнал ділиться на два типи, а саме вокалізований і шумовий. Основною різницею між ними є те, що вокалізований сигнал виникає як результат імпульсів збудження мовного тракту та коливань голосових зв'язок. До не вокалізованих належать фрикативні звуки, що виникають у разі утворення турбулентного широкосмугового шуму («с», «ш»), і вибухові, які формуються утворенням в тракті перепони, на шляху повітря, з подальшим вивільненням стиснутого в області за перепоною повітря («ч»,«п», «к»).

Вокалізований гармонійний сигнал – діапазон частот, що складається з гармонійних складових голосового сигналу, тобто діапазону, на якому чітко простежується наявність основного тону [3] .

На сьогодні при визначенні частоти основного тону виникає ряд проблем, а саме: складність реалізації алгоритмів визначення частоти основного тону; низька ймовірність визначення; помилки у процесі визначення; низька стійкість алгоритму до зовнішніх змін.

Висновки

Проведено аналіз основних аудіо характеристик голосу людини, систематизовано методи і процедури структурного представлення вокалізованого сигналу.

Список літератури

1. Юдін О. К., Зюбіна Р. В. Класифікація методів ідентифікації частоти основного тону //Наукоємні технології. – 2017. – Т. 33. – №. 1.

2. Аль-Келані Ф. Дослідження характеристик мовного сигналу в задачах розпізнавання. – 2004.

3. Ашихмін А. В. Підвищення точності та швидкості обчислення миттєвого спектра гармонійних сигналів за допомогою детектора основного тону. – 2008.