А.В. Кривошейкин д.т.н., профессор зав. кафедрой  СПбГУКиТ

М.А.Чесноков, аспирант СПбГУКиТ

Система оптимального фильтрации речевого сигнала на основе линии задержки с отводами

Рассмотрим систему индивидуальной коррекции слуха, которая используется для увеличения коэффициента разборчивости речи, с этой целью система усиливает необходимые для восприятия человека элементы зашумленного речевого сигнала используя некоторые особенности слухового восприятия.

В данной системе используются свойства частотного маскирования слуха. В первую очередь используется понятие критических полос слуха [1], которые не зависят от уровня интенсивности. В области до 500 Гц ширина критической полосы почти не зависит от центральной частоты и приблизительно равна 100 Гц. В области выше 500 Гц она увеличивается пропорционально средней частоте. В первой области сохраняется абсолютное значение ширины критической полосы, во второй области – относительное. Ширина критической можно описать следующим равенством

Из [2] в пределах частотной полосы слух интегрирует возбуждение по частоте и не различает внутренней структуры возбуждающего сигнала. На данном эффекте базируются субполосные методы кодировании звука.

 

 

 

 

 

 

 

 

 

 

Рис. 1 Принципиальная схема системы оптимального фильтрации речевого сигнала на основе линии задержки с отводами

На рис. 1 приведена Принципиальная схема системы оптимального фильтрации речевого сигнала на основе линии задержки с отводами. На вход  системы поступает отсчет сигнала, который одновременно с входа поступает в линию задержки анализа (ЛЗА) и сумматор. В ЛЗА производится стирание последнего отсчета и запись вновь прибывшего. Из ЛЗА значения всех отсчетов поступают в блок преобразования Фурье (БПФ), в котором производится расчет энергетического спектра сигнла. Отсчеты Энергетического спектра сигнала поступают в блок поиска локальных максимуов (БП), в котором путем перебор и сравнения находятся все локальные максимумы и формирует список, в виде векторов их значений и расположения. Данный список поступает на вход блока психоакустической модели (БПАМ), в котором для каждого выделенного локального максимума указанного в векторах значений и положения на оси частот, производится анализ спектральной плотности сигнала в области точки максимума, рассчитывается значение коэффициента d

, (1)

где Елк – значение локального максимума, Еобл – суммарная энергия в прилежащей области, если данный коэффициент больше порогового значения, то данный локальный максимум считается образованным тональной состовляющей, на усиление которых направлена данная система. Пороговая величина определяется эмпирически, для выбранной в системе ширине прилегающей области.

Если локальный максимум отнесен к тональным, то согласно (1) строится ширина возможной критической полосы, из значения положения максимума и ширины полосы рассчитываются значения границ полосы. Для каждого максимума внутри возможной критической полосы оцениваются значения других локальных максимумов. Если значение другого локального максимума меньше значения полосообразующего максимума, то такой удаляется из списка. Откорректированный список локальных максимумов поступает на вход блока управления (БУ), который в соответствии с данным списком замыкает или размыкает ключи обратных связей (ОС) к12…кN. С сумматора сигнал поступает в линию задержки фильтров (ЛЗФ), ЛЗФ содержит N отводов равно отстоящих друг от друга, каждый отвод подсоединен к полосовому фильтру, центральная частота которого является обратной по отношению ко времени задержки отвода. После полосового фильтра (ПФ), отсчет умножается на коэффициент обратной связи g и если соответствующий данному каналу ключ замкнут и поступает на сумматор, замыкая положительную ОС.

Список литературы

1. Фланаган Л. Анализ, синтез и восприятие речи / пер. с англ. А. А. Пирогова. - М.: Связь,1968. - 397 с.

 

2. Электрические модели улитки органа слуха. Молчанов А.П., Бабкина Л.Н. Л., «Наука», 1978. 181 с.

3. Финкельштейн М. И. Гребенчатые фильтры. М., «Советское радио», 1969, 320 стр.