Юдін О.
К., д.т.н., проф.; Р.В. Зюбіна
Національний авіаційний університет
МЕТОД ЕФЕКТИВНОЇ ШИРИНИ СПЕКТРУ В СИСТЕМІ
ІДЕНТИФІКАЦІЇ АУДІОСИГНАЛУ
Метод ефективної
ширини спектру що може працювати з будь-яким текстом. В його основі лежить
аналіз кожної інформативної складової частотного представлення вхідного сигналу,
що дає можливість говорити про індивідуальні характеристики голосу людини.
Однією з основних задач ідентифікації голосу є визначення простору признаків,
за якими буде проводитись аналіз та ідентифікація. Метод ефективної ширини
спектру лежить в амплітудно-частотній області і передбачає використання
наступних інформативних характеристик:
·
інтенсивність,
амплітуда
·
енергія
·
частота основного тону
(ЧОТ)
·
формантні частоти [2].
Зважаючи на те,
що даний метод ідентифікує голос диктора в умовах високого шуму, вплив якого вносить
значні зміни на більшість характеристик, то за основну характеристику приймемо
частоту основного тону та значення математичного сподівання кожної складової
частотного спектру сигналу.
Специфіка будови
всіх систем запису аудіо сигналів припускає наявність завад створених самою
системою, звуками навколишнього середовища при записі, завад в каналі зв’язку.
В такому випадку оцінити ефективність роботи системи можна використовуючи
співвідношення сигнал/шум (SNR).
В результаті використання
методу ефективної ширини спектру отримані наступні результати:
1)
Ймовірність вірної
ідентифікації жіночого голосу в базі даних становить 100% у випадку 5,22 дБ і тільки після того починає знижуватись (Рис.
1.).
Табл.1.
Показники ідентифікації диктора методом ефективної ширини спектру
|
|
|
|||||||||
|
№ |
|
SNR, дБ |
Шум перевищує сигнал
(раз) |
Текстозалежна
ідентифікація |
Текстонезалежна ідентифікація |
|
SNR, дБ |
Шум перевищує сигнал
(раз) |
Текстозалежна
ідентифікація |
Текстонезалежна
ідентифікація |
|
1 |
13 |
-2,88 |
0,83 |
1 |
1 |
13 |
-2,949 |
0,83 |
1 |
0,99 |
|
2 |
17 |
-5,22 |
1,096 |
1 |
0,97 |
15 |
-4,277 |
0,96 |
1 |
0,996 |
|
3 |
20 |
-6,59 |
1,27 |
0,99 |
0,91 |
17 |
-5,291 |
1,096 |
1 |
0,962 |
|
4 |
23 |
-7,93 |
1,43 |
0,99 |
0,82 |
19 |
-6,208 |
1,25 |
0,99 |
0,889 |
|
5 |
26 |
-8,9 |
1,67 |
0,98 |
0,69 |
22 |
-7,456 |
1,43 |
0,99 |
0,82 |
|
6 |
30 |
-10,18 |
1,91 |
0,95 |
0,55 |
25 |
-8,555 |
1,62 |
0,97 |
0,492 |
|
7 |
35 |
-11,46 |
2,25 |
0,85 |
0,46 |
30 |
-10,2 |
1,91 |
0,93 |
0,508 |
|
8 |
40 |
-12,65 |
2,59 |
0,85 |
0,39 |
35 |
-11,42 |
2,25 |
0,87 |
0,32 |
|
9 |
50 |
-14,63 |
3,16 |
0,65 |
0,25 |
40 |
-12,64 |
2,59 |
0,87 |
0,27 |
|
10 |
60 |
-16,27 |
3,82 |
0,52 |
0,14 |
50 |
-14,58 |
3,16 |
0,565 |
0,203 |
|
11 |
70 |
-17,53 |
4,41 |
0,45 |
0,16 |
60 |
-16,17 |
3,82 |
0,52 |
0,17 |
2)
Зразки чоловічих та жіночих голосів знаходяться в різних
частотних діапазонах, тому доцільно було розділити їх на дві підмножини
|
|
|
|
Рис.
1. Залежність ймовірності вірної ідентифікації жіночого голосу в залежності
від рівня SNR |
Рис.
2. Залежність ймовірності вірної ідентифікації жіночого голосу в множині |
Такі показники
ідентифікації мовленнєвого сигналу демонструють універсальність роботи
розробленого методу ефективної ширини та дозволяють обирати між текстозалежною
і текстонезалежною ідентифікацією в залежності від обраного порогу прийняття
рішення.
Висновки
В роботі
проведено оцінку ефективності розробленого методу ефективної ширини спектру В
результаті експерименту визначено, що розподіл голосів на групи дає можливість підвищити
ефективність роботи системи в середньому на 27 % для різних значень SNR.
Література
1.
Yudin O., Frolov O.,
Ziubina R. Quantitative quality indicators of the invariant spatial method of
compressing video data //Problems of Infocommunications Science and Technology
(PIC S&T), 2015 Second International Scientific-Practical Conference. –
IEEE, 2015. – С. 227-229.
doi.org/10.1109/infocommst.2015.7357320
2.
Юдін О. К., Зюбіна Р.
В. Класифікація методів ідентифікації частоти основного тону //Наукоємні
технології. – 2017. – Т. 33. – №. 1. doi.org/10.18372/2310-5461.33.11553