Сучасні інформаційні технології

 

Магістрант Прокопчук О.С.

Київський політехнічний інститут,Україна

Сучасні методи розпізнавання мовлення

 

Питаннями автоматичного розпізнавання мовлення вчені займаються давно, але з моменту появи перших комп'ютерів цей напрямок отримав новий виток розвитку, оскільки текстовий командний інтерфейс взаємодії з ЕОМ не забезпечував прийнятної швидкості  роботи. На цей час  розроблено широкий спектр методів та комп'ютерних програм, спрямованих на вирішення проблем розпізнавання мови.

Сьогодні отримані багатообіцяючі результати і створені діючі комерційні системи, в основному, для англійської мови, а також іспанської, французької, японської, російської, китайської та арабських мов. Це багато в чому пов'язано з економічними і політичними аспектами розвитку мовних технологій. Наприклад, англійська мова є найбільш поширеною і тому інвестиції в розвиток технологій для автоматизованої обробки англійської мови окупилися досить швидко. У той же час мовним технологіям інших мов, зокрема українській, приділяється недостатньо уваги, внаслідок чого їх розвиток дещо стримується.

Враховуючи обмежені можливості існуючих обчислювальних ресурсів при вирішенні таких складних інтелектуальних завдань як автоматичне розпізнавання мовлення людини, доводиться знаходити компроміс між точністю та швидкістю обробки.

Для поліпшення характеристик розпізнавання української  злитої промови (в першу чергу швидкості обробки)  запропоновано додатковий морфемний рівень опису мови і мовлення, який вводиться в кожен з двох етапів функціонування моделі: навчання та розпізнавання.

В даний час практично всі системи автоматичного розпізнавання мовлення будуються на основі декількох базових підходів (рис. 1): приховані Марківські моделі, штучні нейронні мережі, динамічне програмування тощо.

 

 

Рис. 1 Базові підходи до автоматичного розпізнавання мовлення

 

Основним недоліком підходів, заснованих на динамічному програмуванні, є їх дикторозалежність. Крім того, кожен новий користувач системи, перед тим як її використовувати, повинен створити свої еталони, тобто наговорити всі слова, які присутні в словнику. Для підвищення надійності розпізнавання при запису еталонів користувачеві доводиться повторювати всі слова по кілька разів. З цієї причини такий підхід зараз використовується лише для додатків з малим словником, наприклад, виклик певного абонента в мобільних телефонах або персоніфіковане голосове управління офісними програмами.

Штучні нейронні мережі (ШНМ) також використовуються при розпізнаванні мовлення. Вони являють собою спробу використання процесів, що відбуваються в нервових системах біологічних організмів. Нейронні мережі здатні навчатися на голосах декількох дикторів, дозволяючи створювати дикторонезалежні системи розпізнавання, однак їх важко застосовувати для злитого мовлення, так як при злитому введенні невідома заздалегідь тривалість мовного сигналу, а відповідно і кількість векторів ознак, а також кількість і порядок вимовлених слів, що значно ускладнює створення і навчання мережі.

В даний час найбільш популярним математичним апаратом для автоматичного розпізнавання мовлення є приховані Марківські моделі (ПММ) [1]. Вони досить змістовні за своєю математичною структурою, тому стали теоретичним фундаментом для різних областей досліджень випадкових процесів, не тільки мови . ПММ дозволяють вирішувати задачі розпізнавання мовлення, а також покращувати якість сигналу, забрудненого шумами і спотвореннями, моделювати джерело мовного сигналу, оптимізувати структуру діалогу та ін.. Зараз переважна більшість систем розпізнавання мовлення будується на основі ПММ, так як для них запропоновані досить ефективні методи дикторонезалежного розпізнавання злитого мовлення.

До решти технологій, які також досліджуються для вирішення задачі автоматичного розпізнавання мовлення можна віднести: Support Vector Machines , вейвлет аналіз мови  і системи моделювання людського вуха. Однак дані технології не знаходять масового застосування в сучасних системах розпізнавання мовлення.

Загальна схема розпізнавача мови, побудованого з використанням апарату ПММ [2], показана на рис. 2. Людина вимовляє деяку фразу, яка являє собою послідовність слів . Завдання системи розпізнавання мови полягає в тому, щоб правильно розпізнати цю послідовність слів. Однак в ході розпізнавання можуть виникати помилки, тому результат може виявитися відмінним від W, наприклад . Для параметричного опису мовного сигналу, він розділяється на короткі сегменти, які потім перетворяться в вектори ознак .

Навчання

Словник слів з фонетичними транскрипціями

 

мови

 

Акустичні моделі

фонем

 

мови

 

База

мови

 

мови

 

 

Визначення ознак сигналу

База

текстів

мови

 

Статична

Модель мови

мови

 

P(O W)

Розпізнавач

P(W)

Навчання

Мова

Ознаки

Гіпотеза фрази

 

Рис. 2 Базова архітектура системи дикторонезалежного розпізнавання мовлення

 

 

Обчислені вектори ознак  надходять в розпізнавач мови, завдання якого полягає у виборі гіпотези фрази з максимальною вірогідністю, яка задається формулою Байєса:

 

,     (1)

 

де P(W) і P(O|W) - імовірнісні оцінки моделі мови та акустичної моделі мови відповідно.  

Зважаючи на те, що в даний час не існує готових до використання дикторонезалежних систем розпізнавання українського злитого мовлення з великим словником  вирішення даної задачі є дуже актуальною в умовах швидкого росту попиту на системи людино-машинної взаємодії.

 

Література

1. Моттль, В.В. Скрытые Марковские модели в структурном анализе сигналов / В.В. Моттль, И.Б. Мучник; М.: Физматлит, 1999.

2. Rabiner, L. Fundamentals of Speech Recognition / L. Rabiner, B. Juang - New Jersey: Prentice-Hall, Englewood Cliffs, USA, 1993.