Вокодеры можно разделить на 2 класса:
В РЭ вокодерах при передаче распознаются разнесенные элементы речи и передаются только их номера. На приемной стороне эти элементы создаются по правилам речеобразования или берутся из памяти устройства.
В параметрических вокодерах из речевого сигнала выделяются 2 типа параметров:
По этим параметрам на приемной стороне синтезируется речь. По принципу определения параметров фильтровой функции вокодеры различают:
В полосных вокодерах спектр делится на 7-20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большое число каналов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и ФНЧ с f среза достаточной для выделения огибающей канального сигнала.
В формантных вокодерах – огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина полосы частот.
В ортогональных вокодерах огибающая мгновенного спектра речи раскладывается в ряд по выбранной системе ортогональных базисных функций. Вычисленные коэффициенты этого разложения передаются на приемную сторону.
Вокодеры с линейным предсказанием (LPC) – основаны на оригинальном математическом аппарате, использующем линейные модели речеобразования и адаптивную обработку.
Гомоморфная обработка позволяет разделить генераторную и фильтровую функции, образующие речевой сигнал.
ГИП – генератор периодических импульсов.
С выхода ГИП сигнал поступает на линейную динамическую систему, импульсная характеристика V(t), которой соответствует форме колебания в голосовой щели. Коэффициент усиления вокализованного звука Кв определяет интенсивность возбуждения.
Для невокализованных звуков (шипящие и т. д.) модель возбуждения реализуется в виде генератора ГШ с регулируемым коэффициентом усиления Кнв. В качестве генератора шума можно использовать генератор случайных чисел с равномерным спектром и произвольной функцией распределения. Модель голосового тракта полностью характеризуется передаточной функцией G(z), полюса которой соответствуют резонансам (формантам) речевого сигнала. Эффект излучения речи описывается передаточной функцией R(z). Как правило модели голосовой щели, голосового тракта и излучателя объединяют вместе, записывая результирующую передаточную функцию в процессор речеобразования в виде: K(z) = V(z)G(z)R(z). Несмотря на то, что данная функция имеет как нули, так и полюса, нули обычно не рассматриваются, так как их учет вносит малый вклад в речеобразование.
Замечания:
В любом случае предполагается, что речевой процесс, являющийся случайным и не случайным должен подвергаться кратковременному анализу.
Обычно полагают, что параметры модели постоянны на временном интервале 10-40 мс, на котором речевой сигнал может быть рассмотрен как локальностационарный.
При выборе длительности окна следует искать компромисс между двумя противоречиями:
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.