Математическая постановка задачи оптимального проектирования цифровых фильтров. Основные типы фильтров частотной селекции и их применение, страница 17

Вокодеры можно разделить на 2 класса:

  1. речеэлементные,
  2. параметрические.

В РЭ вокодерах при передаче распознаются разнесенные элементы речи и передаются только их номера. На приемной стороне эти элементы создаются по правилам речеобразования или берутся из памяти устройства.

В параметрических вокодерах из речевого сигнала выделяются 2 типа параметров:

  1. параметры, характеризующие огибающую спектра речевого сигнала (фильтровую функцию).
  2. параметры, характеризующие источник речевых колебаний (генераторную функцию) – частота основного тона, ее изменение во времени, моменты появления, исчезновение основного тона или шумового сигнала.

По этим параметрам на приемной стороне синтезируется речь. По принципу определения параметров фильтровой функции вокодеры различают:

  1. полосные канальные;
  2. формантные;
  3. ортогональные;
  4. с линейным предсказанием;
  5. гомоморфные.

В полосных вокодерах спектр делится на 7-20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большое число каналов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и ФНЧ с f среза достаточной для выделения огибающей канального сигнала.

В формантных вокодерах – огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина полосы частот.

В ортогональных вокодерах огибающая мгновенного спектра речи раскладывается в ряд по выбранной системе ортогональных базисных функций. Вычисленные коэффициенты этого разложения передаются на приемную сторону.

Вокодеры с линейным предсказанием (LPC) – основаны на оригинальном математическом аппарате, использующем линейные модели речеобразования и адаптивную обработку.

Гомоморфная обработка позволяет разделить генераторную и фильтровую функции, образующие речевой сигнал.

3.5. Речеобразование, как процесс фильтрации.

ГИП – генератор периодических импульсов.

С выхода ГИП сигнал поступает на линейную динамическую систему, импульсная характеристика V(t), которой соответствует форме колебания в голосовой щели. Коэффициент усиления вокализованного звука Кв определяет интенсивность возбуждения.

Для невокализованных звуков (шипящие и т. д.) модель возбуждения реализуется в виде генератора ГШ с регулируемым коэффициентом усиления Кнв. В качестве генератора шума можно использовать генератор случайных чисел с равномерным спектром и произвольной функцией распределения. Модель голосового тракта полностью характеризуется передаточной функцией G(z), полюса которой соответствуют резонансам (формантам) речевого сигнала. Эффект излучения речи описывается передаточной функцией R(z). Как правило модели голосовой щели, голосового тракта и излучателя объединяют вместе, записывая результирующую передаточную функцию в процессор речеобразования в виде: K(z) = V(z)G(z)R(z). Несмотря на то, что данная функция имеет как нули, так и полюса, нули обычно не рассматриваются, так как их учет вносит малый вклад в речеобразование.

Замечания:

  • для вокализованных звуков, относительно медленно меняющихся во времени, рассматриваемая модель речеобразования является достаточно точной.
  • для невокализованных звуков, быстро меняющихся во времени, данная модель может быть не адекватной реальным физическим процессам.

В любом случае предполагается, что речевой процесс, являющийся случайным и не случайным должен подвергаться кратковременному анализу.

Обычно полагают, что параметры модели постоянны на временном интервале 10-40 мс, на котором речевой сигнал может быть рассмотрен как локальностационарный.

При выборе длительности окна следует искать компромисс между двумя противоречиями:

  1. окно должно быть достаточно малым, чтобы последовательность окон более точно отражало динамику изменения речевого сигнала.
  2. окно должно быть достаточно большим, чтобы исследуемые характеристики для каждого окна отражали характеристики квазистационарного участка речи, что особенно важно для вокализованных звуков.

3.6. Кодирование с линейным предсказанием.