Современные информационные технологии/2. Вычислительная техника и программирование
К.т.н. П.В. Желтов, к.т.н. В.И. Семенов, А.К.
Шурбин
Чувашский государственный университет, Россия
Использование быстрого непрерывного вейвлет-преобразования
для выделения речевого сигнала из шума конвейера
Для транспортировки сыпучих грузов (песка, гравия, щебня) используется
конвейер. Размер
кусков транспортируемого материала не должен превышать 300-400 мм. Трасса
конвейера в горизонтальной плоскости прямолинейная, длина конвейера 200 м.
Горизонтальная секция конвейера находится под землей, две секции имеют
наклонную трассу. Загрузку сыпучего груза на конвейерную ленту производят через
направляющий лоток или воронку, а разгрузку - через концевой барабан.
Загрузочных
воронок несколько, для того чтобы можно было по мере необходимости загрузить разными сыпучими материалами.
Щебень, песок, гравий и другие материалы хранятся в кучах над воронками, где
работает бульдозер.
При попадании на ленту больших кусков
замерзшего материала возникает аварийная ситуация, разгрузочные воронки могут
забиться, а также эти куски могут скатываться по наклонному конвейеру обратно.
В этих ситуациях необходимо быстро остановить конвейер для устранения неполадок
или подавать команды для предотвращения неполадок. При этом преимущества голосового управления очевидны:
1) руки остаются свободными; 2) легко подать
сигнал тревоги;3) не требуется никаких инструментов; 4) рабочий не должен
занимать фиксированную позицию, 5) не имеют значения условия освещения и
механической вибрации; 6) не нужны клавиатура и дисплей; 7) проста
методика наблюдения за реакцией на команду; 8) можно пользоваться
общим каналом для нескольких целей; 9) легко осуществляется сопряжение
с телефонными системами.
При работе конвейер создает шум, поэтому были проведены исследования речевого сигнала на фоне шума. Для этого сигнал записывался с разных расстояний с помощью микрофона и сохранялся в звуковом файле. Частота дискретизации – 8000 Гц, разрешение – 16 бит. Обозначим шум функцией N(t), а речевой сигнал на фоне шума функцией H(t)=S(t)+N(t). На рис. 1 представлен график зависимости оцифрованного шума N(t) от времени t.
Рис. 1. Шум
конвейера
На рис. 2 представлен
спектр шума F(v) , вычисленный быстрым преобразованием Фурье функции N(t).
Рис. 2. Спектр шума
конвейера
Многочисленные
эксперименты показывают, что в спектре шума выделяются частоты в диапазоне от 100 до 410 условных единиц. Все остальные частоты
имеют почти одинаковые амплитуды, медленно стремящиеся к нулю при высоких
частотах. Для подавления этих частот и частот, при которых речевой сигнал имеет
малые амплитуды, сконструирован Sinc-вейвлет.
Обратное вейвлет-преобразование шума и прослушивание его показывает, что
наиболее сильные амплитуды ответственны за металлический звук, который
образуется при вращении роликов конвейера длиной 200 метров. Остальные частоты создают фон, который невозможно
полностью устранить.
На рис. 3 представлен график зависимости H(t) от
времени t шума и слова стоп. Слово стоп
произносилось на расстоянии 10 метров от микрофона. В [1,2] отмечается, что шум
высокой интенсивности влияет на диктора, вызывая изменения в характере произношения
речевых команд. В условиях сильных помех говорящий изменяет громкость и другие
параметры речи, чтобы обеспечить достаточно надежное ее понимание.
Рис. 3. Слово стоп на фоне шума конвейера
Таким образом, речь,
воспроизводимая в шумной среде, существенно отличается по характеристикам от
речи, воспроизводимой тем же лицом в спокойной обстановке. Данный эффект
получил название ломбард-эффект или эффект Ломбера. Негативное влияние шумов на
распознавание состоит в том, что они искажают параметры речевых команд. На
одинаковых полосах частот речевого сигнала и шума спектр шума маскирует спектр
речевого сигнала. При этом качество распознавания в зависимости от интенсивности
шума может снизиться на 10-40% [3].
Надежные системы распознавания РК из ограниченного словаря в условиях
акустических помех в настоящее время разрабатываются в основном для авиации и
используются в приборах речевого управления и контроля полета. Практически все
испытываемые системы дикторозависимые [3]. Так же отмечается, что метод
пофонемного распознавания не показал достаточной работоспособности при наличии
интенсивных акустических шумов, потому, что наличие шума в распознаваемой
речевой команде делает её непохожей на эталон, так как эталоны речевых команд
обычно подготавливаются при отсутствии помех, отсюда и снижение качества
распознавания.
Для распознавания речевых команд
используется алгоритм выделения фонем по энергии сегментов
вейвлет-коэффициентов W(а,b) на разных
масштабах.
1. Конструируется Sinc-вейвлет для подавления частот 0 - 450 и 8000 – 16384.
2. Вычисляется
вейвлет-спектр W(a,b) с применением MHAT-вейвлета.
3. W(a,b) разбивается на сегменты длительности 128 отсчетов.
4. Вычисляется Фурье-спектр каждого сегмента.
5. Вычисляется энергия сегментов.
На рис. 4 представлен график зависимости энергии
сегментов вейвлет-коэффициентов W(а,b) слова
стоп от масштабного
коэффициента а.
Рис. 4. Энергии сегментов вейвлет-коэффициентов W(а,b) слова
стоп
В сегментах 63-73 для
масштабных коэффициентов 1-8 выделяется пик, который соответствует энергии
сегментов вейвлет-коэффициентов W(а,b) слова
стоп. Это означает, что для
масштабных коэффициентов 1-8 энергия сегментов вейвлет-коэффициентов W(а,b) шума в
несколько раз меньше, чем для речевого сигнала.
На
рис. 5 представлен график энергии сегментов вейвлет-коэффициентов W(2,b) слова
стоп.
Рис. 5. Энергии
сегментов вейвлет-коэффициентов W(2,b) слова
стоп
Речевые сигналы подаются
не только для выполнения команды, а также подаются для информирования, о
том, какой материал надо транспортировать.
На рис. 6 представлен график зависимости H(t) от времени t шума слова песок.
Рис. 6. Слово песок на фоне шума конвейера
Так же, как и слово стоп, слово песок
произносилось на расстоянии 10 м от микрофона.
Рис.
7. Энергии сегментов вейвлет-коэффициентов W(2,b) слова
песок
На рис. 7 видно, что
выделяются два пика, которые соответствуют гласным фонемам. Чтобы распознать,
какая речевая команда подана, производим вейвлет-преобразование энергии
сегментов вейвлет-коэффициентов W4(4,b) речевых
команд и подсчитывается количество выделенных локальных максимумов. Так как,
количество локальных максимумов не зависит от того, где подготавливаются
эталоны команд – при наличии шума или без него и количество речевых команд
всего 20, то всевозможные комбинации выделенных локальных максимумов позволяют
команды отличить друг от друга.
Литература:
1. Крашенинников В.Р., Армер А.И. Распознавание речевых сигналов на фоне шумов // «Распознавание образов и анализ изображений: новые информационные технологии». Труды седьмой международной конференции РОАИ-7, С-Пб, 2004. С. 752 – 755.
2. Крашенинников В.Р., Армер А.И., Крашенинникова Н.А., Хвостов А.В. Распознавание речевых команд на фоне интенсивных помех с помощью авторегрессионных портретов // Наукоемкие технологии. Москва, 2007, № 9. С. 65 – 74.
3. Крашенинникова Н.А. Оптимизация библиотеки эталонов в задачах распознавания речевых команд. Дисс. на соис. уч. ст. к.т.н. Ульяновск, 2007.