Многие методы кодирования основываются на кодировании с линейным предсказанием LPC (Linear Predicative Coding). В методе LPC входной (речевой) сигнал представляет последовательность значений амплитуды, но алгоритм кодирования применяется не к отдельным цифровым значениям, а к их блокам. Для каждого блока значения вычисляются характеризующие его параметры: частота, амплитуда и ряд других. Затем из речевого сигнала удаляют избыточность, исключая найденные периодичности. В результате получают остаточный речевой сигнал, который аппроксимируют и передают вместе с вычисленными параметрами по сети связи. В пункте приема, в декодирующем устройстве, по принятому остаточному сигналу и параметрам восстанавливают речевой сигнал, выполняя процесс синтеза речи.
При таком кодировании добиваются высокой степени сжатия речи, а значит и заметного уменьшения требуемой полосы пропускания на сети. Однако такое кодирование приводит к появлению заметных задержек в пунктах кодирования и декодирования, так как при передаче и приеме блок значений речевого сигнала надо накапливать, а также требуется время на выполнение вычислительных функций. Последний элемент задержки может быть уменьшен применением мощных специализированных процессоров.
Важно заметить то, что в системах кодирования со сжатием особые требования предъявляются к передаче сигналов с резкими скачками амплитуды, к которым относятся сигналы от модемов и факсимильных аппаратов. Поэтому аппаратура, поддерживающая сжатие, должна автоматически распознавать сигналы от модемов и факсимильных аппаратов и обрабатывать их иначе чем речевые данные.
Рассмотрим наиболее распространенные стандарты кодеков.
Кодек G.723.1. Кодек соответствует рекомендации G.723.1 МСЭ-Т. В нем используется технология кодирования речевой информации, сокращенно называемая MP-MLQ (Multi-Pulse - Multi Level Quantization - множественная импульсная, многоуровневая квантизация), сочетающая в себе комбинацию АЦП/ЦАП и вокодера. Такие гибридные кодеки появились в системах мобильной связи.
Принцип работы кодека состоит в синтезе речевого сигнала посредством замены его гармонических составляющих соответствующим набором фонем (фонема - это совокупность различительных признаков элементов речи). Кодек G.723.1 преобразует аналоговый сигнал по методу ИКМ с образованием в цифровой поток со скоростью 64 кбит/с, а затем, при помощи многополосного фильтра/вокодера выделяет частотные фонемы, анализирует их и передает по IP-сети информацию только о текущем состоянии фонем в речевом сигнале. Данный метод кодирования позволяет передавать речевые сообщения со скоростью 5,3 кбит/с (алгоритм кодирования CELP) или 6,3 кбит/с (алгоритм кодирования MP-MLQ). Процесс преобразования требует применения процессора DSP с производительностью 16,4 - 16,7 миллион команд/c и вносит задержку 37 мс.
Кодеки G.729 образуют семейство, отвечающее рекомендациям: G.729, G.729 Annex A, G.729 Annex B. Последний тип кодека содержит детектор и VAD и генератор комфортного шума). Кодеки сокращенно называют CS-ACELP (Conjugate Structure - Algebraic Code Exited Linear Prediction - сопряженная структура с управляемым алгебраическим кодом и линейным предсказанием). В процессе преобразования используется процессор DSP с производительностью 21,5 миллион команд/c, который вносит задержку 15 мс. Скорость передачи кодированного сигнала составляет 8 кбит/с.
Кодек G.728. Это гибридный кодек, соответствующий рекомендации G.728 МСЭ-Т, относится к категории LD-CELP - Low Delay - Code Exited Linear Prediction - кодек с малой задержкой и с управляемым кодом с линейным предсказанием. Скорость передачи кодированного сигнала равна 16 кбит/с, а задержка составляет 3…5 мс. В кодек входит процессор с быстродействием более 40 миллион команд/c. Кодек находит широкое применение в системах видеоконференций, а также для IP-телефонии.
При оценке качества передачи речи часто используют метод MOS (Mean Opinion Scores - средняя экспертная оценка), определенный в рекомендация МСЭ-Т для телефонных сетей. Шкала оценок MOS для речевой полосы 200…3400 Гц приведена в табл.7.10.
Шкала средней экспертной оценки MOS Таблица 7.10
Оценка |
Качество |
Искажения |
5 |
Отличное |
Незначительные |
4 |
Хорошее |
Заметны, но не раздражающие |
3 |
Посредственное |
Немного раздражают |
2 |
Плохое |
Раздражают, но не неудобны |
1 |
Неудовлетворительное |
Очень раздражают |
В табл.7.11 приведены оценки MOS для рассмотренных ранее кодеков. Здесь же для сравнения показана оценка кодека ИКМ по рекомендации G.711 МСЭ-Т, не обеспечивающего сжатия речи.
Таблица 7.11
Название стандарта |
MOS |
G.711 (ИКМ; 64 кбит/с) |
4,5 |
G.723.1 (CELP; 5,3 кбит/с) |
3,7 |
G.723.1 (MP-MLQ; 6,3 кбит/с) |
3,9 |
G.729 (CS-ACELP; 8 кбит/с) |
4,0 |
G.729А (CS-ACELP; 8 кбит/с) |
3,4 |
G.728 (LD-CELP; 16 кбит/с) |
3,6 |
Задержка речи является одним из показателей качества передачи информации в сети связи. В цифровых сетях с коммутацией каналов она не велика (составляет менее 50 мс) и поэтому с этим явлением сталкиваются только на сетях с большой протяженностью (более нескольких тысяч километров). Сеть с пакетной передачей речи вносит заметно большую задержку, которая зависит от многих факторов.
В первую очередь это задержки, появляющиеся в оконечных устройствах при передаче и приеме речевых сообщений. Сюда входят задержки накопления и обработки, появляющиеся при кодировании и декодировании и зависящие от типа кодека. В пунктах передачи кадры, сформированные на выходе кодера вставляются в пакеты (инкапсуляция), на что также затрачивается некоторое время. Оно увеличивается вследствие того, что для повышения использования ресурсов IP-сети обычно в один пакет вставляется несколько речевых пакетов. Например, три кадра на выходе кодека G.729, соответствующих 30 мс речевого сигнала, могут быть объединены в одном IP- пакете. На выходе передающего оконечного устройства может образовываться очередь пакетов, готовых к передаче по сети. Вследствие дейтаграммного способа пересылки пакетов, появляется разброс времени их доставки, получивший название джиттер. В результате в пункт приема речевые кадры могут доставляться в иной последовательности по сравнению с пунктом передачи. Чтобы восстановить правильную последовательность необходимо на приеме некоторое время хранить речевые кадры в памяти (буферизация).
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.