Математическая постановка задачи оптимального проектирования цифровых фильтров. Основные типы фильтров частотной селекции и их применение, страница 18

A(z) = G(z)V(z)R(z) – является передаточной функцией синтеза речи. Если на вход такой системы подать сигнал возбуждения e(n), имеющий Z – преобразование E(z), то на выходе получим речевой сигнал S(n) и Z – преобразование S(z).

Уравнение синтеза:

S(z) = E(z)A(z),

Уравнение анализа:

E(z) = S(z)/A(z).

Представим, что е(n) сигнал ошибки предсказания текущего отсчета S(n), сделанного на основе линейной комбинации М предыдущих отсчетов.

Обозначим:

, тогда

, коэффициенты ai, i = 1…m, представляют собой коэффициенты предсказания.

.

3.7. Кодер  GSM.

В системе GSM для канала с полной скоростью передачи в качестве метода кодирования источника речевого сигнала используется регулярное импульсное возбуждение и долговременное предсказание (RPE - LTP).


r

 е                             f

КП- кратковременное предсказание

ДП- долговременное предсказание

Предварительная обработка: 1)предискажения цифрового сигнала при помощи цифрового фильтра  2)нарезание сигнала на сегменты по 160 отсчётов          3)взвешивание каждого сегмента окном Хемминга.

Для каждого сегмента оцениваются параметры кратковременного предсказания LPC, которые по каналу связи преобразуются в логарифмические отношения площадей  r. (для функции логорифма используется кусочно-линейная аппроксимация). На основе этих параметров предобработанный речевой сигнал анализируется.

Далее сигнал  е фильтруется анализатором ДП, а выходной сигнал  fфильтруется сглаживающим фильтром и используется для определения параметров сигнала возбуждения.


Передаваемые параметры              Число бит        Примечание

 


Параметры фильтра КП  (r)                 36                          r1, r2 – 6 бит

r3, r4 –5 бит

r5, r6– 4 бит

r7, r8- 3 бит

Параметры фильтра ДП для каждого сегмента  g, t36                            g– 2бита   4 раза                                                                                              

t– 7бит           

Параметры сигнала возбуждения                                 18

n –№ последовательности                                                     n – 2 бита              

V – max. амплитуда                                                      V – 6 бит

b – норм. Амплитуда                                                    b -  3 бита

Всего за 20 мс сегмент 260 бит.

3.8. Методика разделения речевого сигнала на участки шума, пауз и речи.

На основе вычисления кратковременной энергии и числа пересечений нуля каждое временное окно можно отнести к типам: 1)Пауза; 2)Вокализованная речь; 3)Невокализованная речь.

Энергия речи в окне  t из N отсчётов:      

Число пересечений нуля:

Простейший алгоритм определения типа окна содержит этапы:

1)Разделение потоков отсчётов на интервалы – фреймы

2)Вычисление  и

3)Установка текущих пороговых значений и

4)Сравнение значений кратковременной энергии и числа пересечений нуля с пороговыми значениями по схеме:

– пауза

Следует отметить что при попадании в сегмент как вокализованного, так и невокализованного участка достоверность оценки уменьшается. Для уменьшения вероятности ошибки  уменьшают размер сегмента и анализируют поведение сигнала не только в текущем, но и в нескольких предыдущих сегментах.

Определение состояния канала речь\шум может производиться не только в целях качественного определения параметров, но и с целью экономии энергетических ресурсов  и ресурсов канала связи.

Статистические измерения показывают, что в процессе диалога речевая активность абоненте не превышает 40% времени длительности обмена. Это позволяет в 2 раза снизить речевую нагрузку, вводимую в сеть за счёт формирования и передачи речевых пакетов, т.е. используя прерывистую передачу (система DTX).

DTX – эффективный способ увеличения спектральной эффективности в подвижных системах передачи речи. Основной принцип DTX – включение передатчика только на те периоды когда есть речь для передачи.

Недостатком DTX является потенциальное снижение качества речи: идентификация речи как шума, следовательно потеря информации;  идентификация шума как речи, следовательно уменьшение эффективности самой DTX.