Анализ развития электронных технологий в США, страница 4

Дальнейшее снижение скорости передачи речи основано на устранении избыточности, содержащиеся в речевом сигнале. При этом по каналу связи передаются не сами закодированные речевые волны, а параметры, выделенные из речевого сигнала, которые позволяют восстановить речевой сигнал на приеме. Существует прямая корреляция между сложностью, стоимостью и скоростью передачи кодеров-декодеров речи, называемых вокодерами. Вокодеры являются системами анализа-синтеза речи, основанные на моделях речепреобразования (канальные и полосовые вокодеры, фонемные вокодеры, вокодеры с линейно-прогнозируемым кодированием, или липредеры и т. д.). Наиболее перспективным в этой области является цифровой вокодер с линейно-прогнозируемым кодированием (ЛПК).

 В нем речевой сигнал моделируется в виде линейной комбинации (обычно 12) речевых эталонов с переменными весами (прогнозируемыми весами). Этот алгоритм позволяет понизить скорость преобразования с 16 до 7 кбит/с. Более сложные методы сжатия речи, основанные на применении метода ЛПК в сочетании с элементами кодирования формы сигнала, позволяют снизить скорость передачи до 5,3 кбит/с [17].

Специфика речевых сигналов такова, что их прием и передача в речевом терминале происходит непрерывно. Однако это не согласуется с их информационным содержанием. В связи с этим для того, чтобы использовать 60-65% времени простоя канала, занятого под речевое соединение, в периоды появления пауз необходимо ввести в систему передачи детектор пауз в речевом сигнале (в виде устройства или соответствующих протоколов обработки). В [17] приводится краткое описание структурной схемы модуля пакетирования речевого сигнала, в основные функции которого входит: преобразование речевого сигнала в цифровую форму, кодирование речевого сигнала, эхоподавление, обнаружение активности речи, компенсация джиттера, сборка/разборка пакетов (рис. 1).

Как показывают эксперименты, влияние переменной составляющей сетевой задержки наиболее ощутимо при наличии коротких пауз между словами по сравнению с более длинными паузами между фразами и изречениями. Отсюда следует, что выбор длины PC в сетях с интеграцией служб, в которых реализован способ передачи информации с промежуточным накоплением, необходимо производить с учетом статистики речевых сигналов.

Как уже отмечалось выше, основное назначение ФРС состоит в том, чтобы: 1) “шунтировать” очень короткие периоды молчания в речевых сигналах, что приводит к уменьшению темпа поступления PC в систему передачи; 2) связывать аномалии сетевой задержки в основном со сравнительно “длинными” периодами молчания (известно [19], что “длинные” периоды молчания могут быть изменены на 50% без заметного снижения разборчивости); 3) устранять такой недостаток детектора речевых пауз, как обрезание краев PC.

Анализ влияния длины ФРС на частоту поступления PC и эффективную (фактическую) активность речи, проведенный в [20], позволяет сделать вывод, что диапазон значений длины ФРС 135-180 мс является достаточным для того, чтобы надлежащим образом исключить короткие паузы. Анализ зависимости эффективной речевой активности и частоты поступления PC от длины ФРС показывает, что при изменении длины ФРС от 135 до 180 мс разница в активности составляет лишь 2,5%. В [20] приводится описание эксперимента по оценке влияния переменной задержки на качество восприятия речевых сигналов, а также зависимость средней длительности PC и средней длительности периода молчания, для монологовой английской речи и фиксированного порога срабатывания детектора пауз, от длины ФРС. Средняя продолжительность периода молчания изменялась в отношении 5:1 (от 120 мс до 600 мс). Это указывает на то, что короткие паузы между словами и слогами поглощались, в то время как продолжительные паузы между фразами и предложениями сохранялись. При этом средняя длина PC изменялась в отношении 10:1 (от 200 мс до 2 с). Эти факторы объясняют тот поразительный “психологический” эффект, который возникает от влияния ФРС на качество восприятия речевых сигналов.