Современные информационные технологии/2. Вычислительная техника и программирова­ние

 

                       К.т.н. П.В. Желтов, к.т.н. В.И. Семенов, А.К. Шурбин

Чувашский государственный университет, Россия

         

Использование быстрого непрерывного вейвлет-преобразования для выделения речевого сигнала из шума конвейера

 

                 Для транспортировки  сыпучих грузов (песка, гравия, щебня) используется конвейер.  Размер кусков транспортируемого материала не должен превышать 300-400 мм. Трасса конвейера в горизонтальной плоскости прямолинейная, длина конвейера 200 м. Горизонтальная секция конвейера находится под землей, две секции имеют наклонную трассу. Загрузку сыпучего груза на конвейерную ленту производят через направляющий лоток или воронку, а разгрузку - через концевой барабан.

Загрузочных воронок несколько, для того чтобы можно было по мере необходимости   загрузить разными сыпучими материалами. Щебень, песок, гравий и другие материалы хранятся в кучах над воронками, где работает бульдозер.

         При попадании на ленту больших кусков замерзшего материала возникает аварийная ситуация, разгрузочные воронки могут забиться, а также эти куски могут скатываться по наклонному конвейеру обратно. В этих ситуациях необходимо быстро остановить конвейер для устранения неполадок или подавать команды для предотвращения неполадок. При этом преимущества голосового управления очевидны:

 1) руки остаются свободными; 2) легко подать сигнал тревоги;3) не требуется никаких инструментов; 4) рабочий не должен занимать фиксированную позицию, 5) не имеют значения условия освещения и механической вибрации; 6) не нужны клавиатура и дисплей; 7) проста методика наблюдения за реакцией на команду; 8) можно пользоваться общим каналом для нескольких целей; 9) легко осуществляется сопряжение с телефонными системами.       

          При работе конвейер создает шум, поэтому были проведены исследования речевого сигнала на фоне шума. Для этого сигнал записывался с разных расстояний с помощью микрофона и сохранялся в звуковом файле.  Частота дискретизации 8000 Гц, разрешение 16 бит. Обозначим шум функцией N(t), а речевой сигнал на фоне шума функцией H(t)=S(t)+N(t). На рис. 1 представлен график зависимости оцифрованного шума  N(t) от времени t.                      

                                                                           

                                                     Рис. 1. Шум конвейера          

На рис. 2 представлен спектр шума F(v) , вычисленный быстрым преобразованием Фурье функции N(t).

                                                                         

                                              Рис. 2. Спектр шума конвейера

Многочисленные эксперименты показывают, что в спектре шума выделяются  частоты в диапазоне от 100 до  410 условных единиц. Все остальные частоты имеют почти одинаковые амплитуды, медленно стремящиеся к нулю при высоких частотах. Для подавления этих частот и частот, при которых речевой сигнал имеет малые амплитуды, сконструирован  Sinc-вейвлет. Обратное вейвлет-преобразование шума и прослушивание его показывает, что наиболее сильные амплитуды ответственны за металлический звук, который образуется при вращении роликов конвейера длиной 200 метров.   Остальные частоты создают фон, который невозможно полностью устранить.

На рис. 3 представлен график зависимости H(t) от времени t шума и слова стоп.  Слово стоп произносилось на расстоянии 10 метров от микрофона. В [1,2] отмечается, что шум высокой интенсивности влияет на диктора, вызывая изменения в характере произношения речевых команд. В условиях сильных помех говорящий изменяет громкость и другие параметры речи, чтобы обеспечить достаточно надежное ее понимание.

                                                

                                    Рис. 3. Слово стоп на фоне шума конвейера

Таким образом, речь, воспроизводимая в шумной среде, существенно отличается по характеристикам от речи, воспроизводимой тем же лицом в спокойной обстановке. Данный эффект получил название ломбард-эффект или эффект Ломбера. Негативное влияние шумов на распознавание состоит в том, что они искажают параметры речевых команд. На одинаковых полосах частот речевого сигнала и шума спектр шума маскирует спектр речевого сигнала. При этом качество распознавания в зависимости от интенсивности шума может снизиться на 10-40% [3].

         Надежные системы распознавания РК из ограниченного словаря в условиях акустических помех в настоящее время разрабатываются в основном для авиации и используются в приборах речевого управления и контроля полета. Практически все испытываемые системы дикторозависимые [3]. Так же отмечается, что метод пофонемного распознавания не показал достаточной работоспособности при наличии интенсивных акустических шумов, потому, что наличие шума в распознаваемой речевой команде делает её непохожей на эталон, так как эталоны речевых команд обычно подготавливаются при отсутствии помех, отсюда и снижение качества распознавания.

         Для распознавания речевых команд используется алгоритм выделения фонем по энергии сегментов вейвлет-коэффициентов W(а,b) на разных масштабах.

1. Конструируется Sinc-вейвлет   для подавления частот 0 - 450 и 8000 – 16384.

2.  Вычисляется вейвлет-спектр   W(a,b)  с применением MHAT-вейвлета.

3. W(a,b) разбивается на сегменты длительности 128 отсчетов.

4. Вычисляется Фурье-спектр каждого сегмента.

5. Вычисляется энергия сегментов.

На рис. 4 представлен график зависимости энергии сегментов вейвлет-коэффициентов W(а,b)  слова  стоп от масштабного коэффициента а.          

                                     

                  Рис. 4. Энергии сегментов вейвлет-коэффициентов W(а,b)  слова  стоп

В сегментах 63-73 для масштабных коэффициентов 1-8 выделяется пик, который соответствует энергии сегментов вейвлет-коэффициентов W(а,b)  слова  стоп. Это означает, что для масштабных коэффициентов 1-8 энергия сегментов вейвлет-коэффициентов W(а,b)  шума в несколько раз меньше, чем для речевого сигнала.

На рис. 5 представлен график энергии сегментов вейвлет-коэффициентов W(2,b)  слова  стоп.                         

                                    

               Рис. 5. Энергии сегментов вейвлет-коэффициентов W(2,b)  слова  стоп

Речевые сигналы подаются не только для выполнения команды, а также подаются для информирования, о том,  какой материал надо транспортировать. На рис. 6 представлен график зависимости H(t) от времени t шума слова песок.

                                                                 

                                     Рис. 6. Слово песок на фоне шума конвейера

  Так же, как и слово стоп, слово песок произносилось на расстоянии 10 м от микрофона.                         

                                             

                Рис. 7. Энергии сегментов вейвлет-коэффициентов W(2,b)  слова  песок

На рис. 7 видно, что выделяются два пика, которые соответствуют гласным фонемам. Чтобы распознать, какая речевая команда подана, производим вейвлет-преобразование энергии сегментов вейвлет-коэффициентов W4(4,b) речевых команд и подсчитывается количество выделенных локальных максимумов. Так как, количество локальных максимумов не зависит от того, где подготавливаются эталоны команд – при наличии шума или без него и количество речевых команд всего 20, то всевозможные комбинации выделенных локальных максимумов позволяют команды отличить друг от друга.

Литература:

 

      1. Крашенинников В.Р., Армер А.И. Распознавание речевых сигналов на фоне шумов // «Распознавание образов и анализ изображений: новые информационные технологии». Труды седьмой международной конференции РОАИ-7, С-Пб, 2004. С. 752 – 755.

         2. Крашенинников В.Р., Армер А.И., Крашенинникова Н.А., Хвостов А.В. Распознавание речевых команд на фоне интенсивных помех  с помощью авторегрессионных портретов // Наукоемкие технологии. Москва, 2007, № 9.  С. 65 – 74.

       3. Крашенинникова Н.А. Оптимизация библиотеки эталонов в задачах распознавания речевых команд. Дисс. на соис. уч. ст. к.т.н. Ульяновск, 2007.