Современные информационные технологии/3.Программное обеспечение

 

Камешова С.С.

Костанайский государственный университет им. А.Байтурсынова, Казахстан

Анализ проблем автоматического распознавания речи

 

В последние годы особую актуальность для систем управления различными техническими объектами, роботами, мобильными устройствами приобретают интеллектуальные средства человеко-машинного взаимодействия, основанные на речевых интерфейсах с применением систем автоматического распознавания и синтеза речи. Вопросами автоматического распознавания речи (преобразование акустического сигнала в соответствующую последовательность слов и фраз) ученые и инженеры занимаются еще с момента появления первых компьютеров, поскольку текстовый командный интерфейс взаимодействия оператора с ЭВМ не обеспечивал приемлемой скорости и естественности работы.

За многие годы исследований был разработан широкий спектр методов и компьютерных программ, направленных на решение проблем распознавания речи. Для автоматической обработки и  распознавания речи разработаны и используются многочисленные методы и алгоритмы цифровой обработки сигналов (фильтрация сигналов, корреляционный анализ, спектральный анализ, вейвлет преобразования и т.д.), распознавания образов (сегментация, кластеризация, классификация и т.д.) вероятностного моделирования и распознавания аудиосигналов ( на основе скрытых цепей Маркова, различных типов искусственных нейронных сетей, метода опорных векторов, динамического программирования и т.д.), стохастического моделирования языка и автоматической обработки текстов (морфологического, синтаксического, семантического анализа) и иные методы. Можно говорить, что на данный момент получены многообещающие результаты и созданы действующие коммерческие системы, для английского языка, а также испанского, французского, немецкого, японского, китайского и 65 арабского языков. Однако речевым технологиям для других языков (в том числе и русского языка) и их особенностям в мировой науке уделяется недостаточно внимания, вследствие чего их развитие несколько задерживается. При этом известно, что русский язык является одним из самых распространенных языков мира, на нем говорит до 300 млн. человек (из них более 140 млн. живут в России). Однако качественно и надежно действующих систем автоматического распознавания русской речи фактически не существует до сих пор. Помимо существующих технико-экономических сложностей, на развитие речевых технологий, в первую очередь, влияют особенности русского языка и речи, вызывающие сложности в процессе автоматической обработки: отсутствие строгих грамматических конструкций построения предложений, множество правил словообразования, фонетического представления слов и расстановки ударений с большим количеством исключений, вариативность русского языка и речи в виду наличия диалектов и акцентов.

Задача распознавания речи характеризуется многими параметрами, в первую очередь, это характеристики канала передачи речи, размер словаря распознавания, вариативность речи, уровень окружающего шума, тип ввода речи (побуквенная/изолированная/слитная/спонтанная). Границы слов в потоке слитной речи могут быть определены лишь в процессе распознавания (декодирования речи), посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим и лингвистическим моделям. Точность работы систем автоматического распознавания речи существенно ухудшается с увеличением размера словаря, существует несколько возможных классификаций размера распознаваемого словаря. Малым словарем считается словарь, содержащий единицы и десятки слов, такой словарь подходит для распознавания последовательностей цифр (номеров телефонов, числовых кодов, показаний приборов и т.д.), систем речевого командного управления подвижными техническими объектами (автомобилем, самолетом, и т.д.), систем управления различным оборудованием (например, медицинским) и 66 дистанционного управления роботами и т.д. Распознаваемый словарь среднего размера содержит сотни слов, такого словаря достаточно для большинства диалоговых систем. Большой словарь начиняется от тысяч слов, такие системы распознавания могут использоваться в автоматизированных справочных системах или системах диктовки речи в ограниченной предметной области. Словарь размером свыше сотни тысяч слов считается сверхбольшим и он позволяет создавать системы стенографирования практически для любых синтетических языков (таких как все славянские языки, в том числе и русский язык).

Для задач голосового управления автоматические системы распознавания уже достигли определенного уровня и используются в ряде приложений, однако, качество и надежность компьютерного анализа речи в реальных условиях применения остаются недостаточными. Сложность проблемы распознавания речи, главным образом, связана с вариативностью ее основных параметров, на которые влияет множество факторов. Прежде всего, это случайная компонента процесса речеобразования, которая приводит к многообразию описаний одного и того же слова, произнесенного одним и тем же диктором. Более существенная вариативность связана с индивидуальными различиями речевых аппаратов разных дикторов из-за влияния пола диктора, возрастных различий, акцентов и региолектов, эмоционального и физического состояния диктора. Кроме того, значительное влияние вносит акустический аспект, т.е. смена микрофона, расположение его относительно рта, окружающая акустическая обстановка.  Необходимо отметить, что существующие системы и модели автоматического распознавания речи пока значительно уступают речевым способностям человека, особенно в реальных условиях функционирования, что свидетельствует об их недостаточной адекватности и делает применение речевых технологий в промышленности и быту малоэффективным. Во многих условиях функционирования (в частности, при низком качестве звукового сигнала, наличии внешнего шума или посторонних разговоров) системы автоматического 67 распознавания не могут обеспечить требуемое качество функционирования даже при применении различных методов фильтрации и шумоподавления.  В то же время нельзя забывать, что устная речь – это результат взаимосвязанной работы артикуляторных органов голосового аппарата человека: голосовых связок, гортани, легких, языка, губ и т.д. Соответственно, устная речь передается от диктора к слушателю как по звуковому/слуховому, так и по зрительному каналам (модальностям общения). Для того чтобы повысить точность и робастность работы систем распознавания предлагается в дополнение к обработке звучащей речи использовать анализ визуальной информации о речи на базе технологий машинного зрения («автоматическое чтение речи по губам»), создавая системы многомодального распознавания речи.

Таким образом, приведенные методы автоматизированного распознавания речи способствуют созданию средств речевого ввода команд и текстов, автоматического перевода, реферирования текстов, построения справочных и информационно-поисковых устройств. Непрерывное совершенствование форм диалога между человеком-оператором и ЭВМ должно привести к оптимизации коммуникации между ними. Диалог «человек-машина» на естественном языке предполагает использование, как соответствующих технических методов, так и определенных лингвистических знаний.

 

Литература:

1.     Геппенер, В.В. Вейвлет-преобразование в задачах цифровой обработки сигналов: Учебное пособие / В.В. Геппенер, Д.А. Черниченко, С.А. Экало // СПб.: Изд-во СПбГЭТУ, 2002.- 78 c.

2.     Кипяткова, И.С. Автоматическая обработка разговорной русской речи / И.С.Кипяткова, А.Л.Ронжин, А.А.Карпов // СПб.: ГУАП, 2013. – 314 с.

3.     Кипяткова, И.С. Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи: дис. ... канд. техн. наук: 05.13.11 / Кипяткова Ирина Сергеевна. – СПб., 2011.- 136 с.

4.     Матвеев Ю.Н., Симончик К.К., Тропченко А.Ю., Хитров М.В. Цифровая обработка сигналов / Ю.Н.Матвеев, К.К.Симончик, А.Ю.Тропченко, М.В.Хитров // Учебное пособие, СПб НИУ ИТМО, 2013.- 166 с.

5.     Потапова, Р.К. Речевое управление роботом // М.: КомКнига, 2005.- 328 с.

 

 

Название: Анализ проблем автоматического распознавания речи

Name: Problem analysis automatic speech recognition

Ключевые слова: программирование, распознавание речи, методы, алгоритмы, автоматическая обработка.

Keywords: programming, speech recognition, methods, algorithms, automatic processing.