Анализ развития электронных технологий в США, страница 3

Известны два основных подхода к обработке и транспортировке речевых сигналов через цифровую систему передачи:

1) способ передачи с промежуточным накоплением (пакетизированная речь) или способ передачи с асинхронным временным уплотнением (АВУ);

2) способ передачи с синхронным временным уплотнением (СВУ).

Отметим основные недостатки передачи пакетизированной речи, которые сильно влияют на субъективное восприятие речевых сигналов [10, 12-14]: случайное время прибытия РС, обгоны, потеря отдельных РС, переполнение сборочного буфера и т.д. Как показывают измерения, разборчивость речи начинает снижаться, когда задержка PC становится сравнимой с его длительностью (например, длительностями порядка 60-200 мс) [14]. Отсюда следует, что более значительные задержки допустимы при более длинных РС. Однако при введении ФРС большой длины происходит неэффективное использование канальных ресурсов, так как длины периодов молчания, равные или меньшие длины ФРС, превращаются в “активные” части речевого сегмента. Вариация задержки речевых пакетов на 65-100 мс при средней задержке 165 мс приводит к низкому качеству звучания речи [15]. Другой эффект, который необходимо учитывать при проектировании пакетной сети с интеграцией служб, связан с тем, что аномалия сетевых задержек речевых пакетов, превышающая 50 мс, должна приходиться на менее чем 1% от всех переданных пакетов [16].

Кроме воздействия переменной (случайной) составляющей сетевой задержки, на качество воспроизведения звуковых сигналов у абонента-получателя также влияет и фиксированная (постоянная) задержка, связанная с проводкой и обработкой речевых пакетов по сети и восстановлением из них PC. Задержка передачи речевого сигнала вызывает два нежелательных явления [17]: “эхо” и “наложение речи”. Эффект “эхо” (прослушивание абонентом собственного голоса) возникает при величине задержки распространения звукового сигнала от источника к приемнику и обратно больше 50 мс. Согласно рекомендации Сектора по стандартизации телекоммуникаций Международного союза электросвязи (ITU-T) G.114 “наложение речи” (эффект, при котором речь одного говорящего прослушивается в телефоне другого в тот момент, когда он ведет активный разговор) возникает, когда величина односторонней задержки в канале связи составляет более 150 мс.

При передаче РС по цифровому тракту, использующему метод временного синхронного уплотнения, для сохранения непрерывности звучания речевых сигналов необходимо постоянно контролировать и управлять величиной переменной составляющей сетевой задержки [18], что позволяет избавиться от процесса восстановления (сборки) речевых сигналов PC на приемном конце. При этом длина ФРС становится важным параметром детектора пауз в речевом сигнале.

 Статистика речевых сигналов, необходимая для формирования PC

 В [10] анализируется речевой сигнал, обосновывается возможность передачи речи в цифровом виде и очерчивается круг проблем, связанный с этим. Методы кодирования речи разделяются на два основных класса, называемых кодированием волны (прямое цифровое кодирование речевых сигналов с использованием разнообразных приемов снижения скорости их передачи) и кодированием источника (моделирование голосового аппарата с применением подходящих методов оценки параметров модели).

Метод кодирования волны включает в себя непосредственное кодирование формы речевого сигнала. Для прямого цифрового кодирования речевых сигналов, помимо стандартного метода ИКМ, при котором для передачи речи требуется 64 кбит/с полосы пропускания (речевой сигнал обрезают по высокой частоте, от него берутся отсчеты с частотой 8 кГц и квантуются с использованием 8 бит на отсчет), было разработано несколько алгоритмов, использующих корреляционные свойства речевых сигналов. Основная идея при этом заключается в том, что для кодирования производной от речевого сигнала требуется меньше бит, чем для кодирования его волны. Поэтому вместо кодирования отдельных отсчетов, как в ИКМ, для передачи кодируют разность между соседними отсчетами. Алгоритмы этого типа (например, адаптивная дифференциальная ИКМ, вложенная адаптивная дифференциальная ИКМ и т.д.) дают очень разборчивую речь при использовании полосы пропускания порядка 16-33 кбит/с [17], а так как эти алгоритмы относительно просты, они могут быть реализованы в дешевой аппаратуре.