Юдін О. К., д.т.н., проф.; Р.В. Зюбіна

Національний авіаційний університет

МЕТОД ЕФЕКТИВНОЇ ШИРИНИ СПЕКТРУ В СИСТЕМІ ІДЕНТИФІКАЦІЇ АУДІОСИГНАЛУ

 Системи ідентифікації голосу діляться на текстозалежні та текстонезалежні. Текстозалежні системи покликані використовувати завчасно зафіксовані фрази. В свою чергу текстонезалежні системи ідентифікації голосу не залежать від визначених фраз і можуть працювати з вільною мовою людини, що робить їх реалізацію значно складнішою [1].

Метод ефективної ширини спектру що може працювати з будь-яким текстом. В його основі лежить аналіз кожної інформативної складової частотного представлення вхідного сигналу, що дає можливість говорити про індивідуальні характеристики голосу людини. Однією з основних задач ідентифікації голосу є визначення простору признаків, за якими буде проводитись аналіз та ідентифікація. Метод ефективної ширини спектру лежить в амплітудно-частотній області і передбачає використання наступних інформативних характеристик:

·                   інтенсивність, амплітуда

·                   енергія

·                   частота основного тону (ЧОТ)

·                   формантні частоти [2].

Зважаючи на те, що даний метод ідентифікує голос диктора в умовах високого шуму, вплив якого вносить значні зміни на більшість характеристик, то за основну характеристику приймемо частоту основного тону та значення математичного сподівання кожної складової частотного спектру сигналу.

Специфіка будови всіх систем запису аудіо сигналів припускає наявність завад створених самою системою, звуками навколишнього середовища при записі, завад в каналі зв’язку. В такому випадку оцінити ефективність роботи системи можна використовуючи співвідношення сигнал/шум (SNR).

В результаті використання методу ефективної ширини спектру отримані наступні результати:

1)                Ймовірність вірної ідентифікації жіночого голосу в базі даних становить 100% у випадку 5,22 дБ  і тільки після того починає знижуватись (Рис. 1.).

Табл.1. Показники ідентифікації диктора методом ефективної ширини спектру

, 10^3

SNR, дБ

Шум перевищує сигнал (раз)

Текстозалежна ідентифікація

Текстонезалежна ідентифікація

, 10^3

SNR, дБ

Шум перевищує сигнал (раз)

Текстозалежна ідентифікація

Текстонезалежна ідентифікація

1

13

-2,88

0,83

1

1

13

-2,949

0,83

1

0,99

2

17

-5,22

1,096

1

0,97

15

-4,277

0,96

1

0,996

3

20

-6,59

1,27

0,99

0,91

17

-5,291

1,096

1

0,962

4

23

-7,93

1,43

0,99

0,82

19

-6,208

1,25

0,99

0,889

5

26

-8,9

1,67

0,98

0,69

22

-7,456

1,43

0,99

0,82

6

30

-10,18

1,91

0,95

0,55

25

-8,555

1,62

0,97

0,492

7

35

-11,46

2,25

0,85

0,46

30

-10,2

1,91

0,93

0,508

8

40

-12,65

2,59

0,85

0,39

35

-11,42

2,25

0,87

0,32

9

50

-14,63

3,16

0,65

0,25

40

-12,64

2,59

0,87

0,27

10

60

-16,27

3,82

0,52

0,14

50

-14,58

3,16

0,565

0,203

11

70

-17,53

4,41

0,45

0,16

60

-16,17

3,82

0,52

0,17

 

2)                Зразки чоловічих та жіночих голосів знаходяться в різних частотних діапазонах, тому доцільно було розділити їх на дві підмножини  та . Результат експерименту показав, що точна ідентифікація голосу можлива коли SNR становить 5,29 дБ для текстозалежного випадку і 4,27 дБ для текстонезалежного для методу ефективної ширини спектру. Отже, виходячи із вищесказаного, можна зробити висновок, що розділення бази даних на дві множини з різними групами зразків дасть можливість підвищити ефективність роботи системи в середньому на 27 % для різних значень SNR.

Рис. 1. Залежність ймовірності вірної ідентифікації жіночого голосу в залежності від рівня SNR

Рис. 2. Залежність ймовірності вірної ідентифікації жіночого голосу в множині  в залежності від рівня SNR

Такі показники ідентифікації мовленнєвого сигналу демонструють універсальність роботи розробленого методу ефективної ширини та дозволяють обирати між текстозалежною і текстонезалежною ідентифікацією в залежності від обраного порогу прийняття рішення.

Висновки

В роботі проведено оцінку ефективності розробленого методу ефективної ширини спектру В результаті експерименту визначено, що розподіл голосів на групи дає можливість підвищити ефективність роботи системи в середньому на 27 % для різних значень SNR.

Література

1.                Yudin O., Frolov O., Ziubina R. Quantitative quality indicators of the invariant spatial method of compressing video data //Problems of Infocommunications Science and Technology (PIC S&T), 2015 Second International Scientific-Practical Conference. – IEEE, 2015. – С. 227-229. doi.org/10.1109/infocommst.2015.7357320

2.                Юдін О. К., Зюбіна Р. В. Класифікація методів ідентифікації частоти основного тону //Наукоємні технології. – 2017. – Т. 33. – №. 1. doi.org/10.18372/2310-5461.33.11553