Лекция № 2 Технология VoIP




В этой лекции мы будем говорить о технологии VoIP. Для того, чтобы рассмотреть технологию VoIP надо вспомнить принципы передачи речи. Самый простой способ передачи речевого сигнала в цифровой форме заключается в том, с определенной периодичностью передаются дискретные мгновенные отсчеты аналогового сигнала. Известна теорема Котельникова говорит о том, если верхняя частота аналогового сигнала составляет f, то для передачи сигнала без искажений необходимо передавать мгновенные отсчеты с частотой не менее 2*f.

В соответствии со стандартами телефонной сети для передачи речевого сигнала достаточно полосы пропускания от 0.3 кГц до 3.4 кГц. Если считать, что верхняя частота сигнала составляет 4 кГц, то мгновенные отсчеты должны передаваться с частотой 8 кГц. Для обеспечения необходимого динамического диапазона достаточно, чтобы каждый отсчет был представлен 8 битами.

На первом этапе аналоговый сигнал при помощи фильтра низких частот ограничивается по спектру в полосе 300-3400 Гц. На 2 этапе происходит дискретизация, т.е. выделение из исходного сигнала с частотой 2*f отдельных отсчетов и приравнивания их значений к ближайшему разрешенному уровню передачи. На 3 этапе происходит кодирование амплитуды сигнала с помощью 8 бит.

Таким образом, скорость цифрового потока, необходимого для передачи речевого сигнала должна составлять 64 кбит/c. Задача преобразования аналогового сигнала в цифровой поток и его восстановление была решена еще на заре создания первых цифровых систем передачи с помощью кодеков, построенных по рекомендации G.711. tзад=125 мкс для данного кодека.

Такой подход к передаче речевого сигнала лежит в основе технологии, называемой ИКМ - импульсно-кодовая модуляция (PCM - Pulse Code Modulation).

В системе с ИКМ и равномерном квантованием размер каждого шага квантования определяется требованиями к ОСШ (отношение сигнал/шум) по наименьшему уровню кодируемого сигнала. Большие значения сигналов кодируются с тем же шагом. А с ростом амплитуды сигнала ОСШ увеличивается. Поэтому система с ИКМ с равномерным квантованием больших сигналов обладает излишним качеством.

На практике очень часто используется неравномерное (нелинейное) квантование, т.е. уменьшение величины шагов квантования для малых мгновенных значений сигнала за счет увеличения шагов для больших значений. Применение неравномерного квантования эквивалентно компрессированию (сжатию) динамического диапазона сигнала, т.е. шаг квантования можно сделать не одинаковым, а возрастающим вместе со значениями отсчетов. Если шаги квантования будут пропорциональны значениям отсчетов, то ОСШ будет постоянным для всех уровней сигналов.

При этом отсчеты аналогового входного сигнала сначала сжимаются, а затем квантуются с равномерным шагом квантования. Таким образом, чем больше значение отсчетов, тем больше он перед кодированием подвергался сжатию. В приемнике ИКМ-декодер с неравномерным квантованием расширяет сжатое значение, используя для восстановления исходного значения обратную характеристику. Процесс сжатия и последующего расширения сигнала называется компандированием.

Увеличивая степень сжатия, мы уменьшаем ОСШ для сигналов с большой амплитудой. У акустического сигнала достаточно большой диапазон. Если не сделать компандирование, то помехозащищенность разная, т.е. разное значение ОСШ. Тихий шепот будет плохо различим, а громкий голос - хорошо. Поэтому сжимается динамический диапазон сигнала и сигнал пропускается через компандер. Т.е. большой сигнал уменьшается, а маленький увеличивается.

Есть 2 закона компандирования. A-закон (A-low) применяется в Европе. Мю-закон (Mu-low) применяется в Америке. Например, АТС Definity, это США соединяется с S-12 (Европа). Если это применяется на территории США, то ставятся декодеры с А на Мю. А если эти системы используются, например, в Индокитае, то такое впечатление, что ты находишься на берегу океана и волна накатывает и падает. Т.е. здесь разница в компандировании.

Маршрутизатор широкополосного удалённого доступа (англ. Broadband Remote Access Server — сокращённо BRAS или BBRAS) маршрутизирует трафик к/от мультиплексора доступа цифровой абонентской линии (DSLAM) или коммутатора в сетях интернет-провайдера.

BRAS находится в ядре сети провайдера и агрегирует пользовательские подключения из сети уровня доступа. Именно на BRAS’е провайдер может применять политику маршрутизации и качества обслуживания (QoS).

 

Можно ли передавать речевой сигнал при помощи цифрового потока со скоростью, более низкой, чем 64 кбит/c? Можно, если использовать специфические свойства речевого сигнала. Несмотря на то, что большая часть энергии речевого сигнала заключена в полосе от 0.3 кГц до 3.4 кГц, обычно эта полоса не занята полностью.

Это обстоятельство используется в технологии, называемой адаптивной ИКМ (АДИКМ) или Adaptive PCM (ADPCM).

В этом случае дискретизации подвергается и передается не мгновенное значение сигнала, а разность между соседними значениями. Если в сигнале присутствуют высокочастотные составляющие (сигнал меняется быстро), то разность может оказаться значительной, и для представления такой разности необходимо 8 бит, если высокочастотные составляющие отсутствуют (сигнал меняется медленно), то для представления разности может быть достаточно менее 8 бит. Для использования этого обстоятельства необходима постоянная адаптация к мгновенным свойствам речевого сигнала.

Для того чтобы на выходе устройства, работающего по такому принципу получить цифровой поток с постоянной скоростью, необходимо накопление сигнала за определенный промежуток времени (что вызывает неизбежную задержку при передаче сигнала).

Стандарт, основанный на технологии адаптивной ИКМ изложен в рекомендации G.726 ITU. Такой стандарт позволяет передавать речевой сигнал с достаточно высоким качеством при помощи цифрового потока со скоростью 32 кбит/c. При этом tзад=125 мкс, для этого кодека такое же как и у G.711.

Если мы говорим о усовершенствованных голосовых услугах, то должны передавать речь в диапазоне от 50 Гц до 7 кГц. Нарисуем спектр речевого сигнала. (рис. 4 в лекциях Деарта).

 

 

Если хотим передать трансляцию большого симфонического оркестра, то диапазон должен быть еще шире. Соответственно и частота дискретизации должна быть больше, т.е. на выходе кодека должна быть большая скорость (пропускная способность). Усилия ученых были направлены на уменьшение битовой скорости на выходе кодека.

Для этого существует несколько путей:

1 путь - передаем не один отсчет, а группу отсчетов и получаем понятие кадров в кодеке - 10, 20, 30 мс. => скорость на выходе резко падает и задержки увеличиваются (рис. Насти)

 

 

Отдельное направление - вокодеры. При передаче речевой информации по каналам радиинтерфейса применяется сжатие информационного потока - речевое кодирование. Устройства, выполняющие речевое кодирование и декодирование называются вокодерами - Voice Coder (или речевой кодек). Принцип речевого кодирования основан на использовании специфических свойств речевого сигнала. Каждый гласный звук представляется, как сумма небольшого числа гармоник, далее в цифровой форме передается только информация об амплитудах и частотах таких гармоник. Каждый согласный звук представляется в виде шумоподобного сигнала, далее в цифровой форме передается только информация о характеристиках такого сигнала. На приемной стороне синтезатор восстанавливает исходный речевой сигнал.

 

 

Cоответствующий алгоритм речевого кодирования носит название AMR - Adaptive Multirate - адаптивный многоскоростной кодек, в рамках стандарта предусмотрено много различных алгоритмов кодирования, наилучшее качество речевого сигнала дает кодирование, требующее для передачи скорости цифрового потока 12,2 кбит/c.

Для получения на выходе вокодера цифрового потока с постоянной скоростью используется накопление речевого сигнала, для всех алгоритмов речевого кодирования время накопления составляет 20 мсек. Скорость передачи сигнала при кодировании звука должна быть постоянна. В сети стандарта GSM используется стандарт AMR с переменной скоростью кодирования. В среднем 13 кбит/с.

Еще один способ экономии ресурсов сети при передаче речевого сигнала - использование речевых пауз (занимающих значительную часть времени). Если речевая информация передается через пакетную сеть, то при использовании речевых пауз цифровой поток (поток пакетов) передаваемых через сеть уже не будет непрерывным, и не будет иметь постоянной скорости.

В некоторых системах речевого кодирования используются речевые паузы. На передающей стороне имеется VADV oice A ctivity D etector – детектор речевой активности. При наступлении речевой паузы, регистрируемой VAD, прекращается передача информации через сеть (при этом приемник уведомляется о паузе).

В течение паузы приемник может генерировать т.н. комфортный шум.

В начале развития пакетных сетей очень важна была их пропускная способность. В мобильных сетях было очень сильное сжатие. В сетях NGN транспорт перестал быть узким местом. Раньше до появления сетей NGN технология VoIP использовалась для обхода междугородних станций. Интернет телефония стала обходить дорогую междугородную связь (рис. 5 в лек. Деарта).

 

 

ТА подключался к ПК, использовался кодек G.723, со скоростью 5,3-6,4 кбит/с. Т.е. сжатие сигнала в 10 раз. Тогда это был оправдано. В Интернет телефонии существовало примерно 20 Евроценторов, которые обходили МГ. Так как нагрузка на сеть была небольшая, то большого джиттера не было. До 6 кбит/с качество еще хорошее, а когда меньше 6 кбит/с (5,3), то не отличишь бабушка или девочка. G.723 - это плохой кодек (MOS - 2,7-3). Когда голос передается через пакетную сеть, то качество еще ухудшается. Характеристики женских и мужских разговоров отличаются.

Когда Интернет-телефония развернулась до масштаба провайдера, то экономия пропускной способности уже не нужна.

Еще один алгоритм речевого кодирования стандартизован ITU (рекомендация G.729), скорость цифрового потока составляет 8 кбит/c. G.729 – кодек, использующий усовершенствованную технологию линейного предсказания, используются речевые паузы.

Составим таблицу для параметров кодеков. Для каждого кодека нам важно знать 2 базовых параметра:

1. Битовая скорость на выходе кодека;

2. Время задержки, которую вносит кодек при обработке речевого сигнала.

G.711 – ИКМ технология (передача речевого сигнала цифровым потоком со скоростью 64 кб/c)

G.726 – AДИКМ-технология, использование цифровых потоков с различными скоростями.

EFR – Ebhanced Full Rate – технология речевого кодирования, используемая в сетях GSM. Enhanced Full Rate, EFR — стандартизованный алгоритм цифрового кодирования голоса в широкополосном GSM, а также кодек, реализованный на его основе. Является продолжением развития алгоритма Full Rate (FR), разработан на его основе. Работает со скоростью 12,2 Кбит/с и обеспечивает хорошее качество связи, свободное от посторонних шумов

G.729 – кодек, использующий усовершествованную технологию линейного предсказания, используются речевые паузы - ACELP.

 

Таблица 1.1 Параметры кодеков

Кодек Скорость Кбит/с Задержка, мс Технологии Использование речевых пауз
G.711     ИКМ -
G.726 24,32   АДИКМ -
G.729     ACELP +
AMR 12,2   Ebhanced Full Rate +

Есть рекомендация ITU-T Y.1540, которая описывает стандартные сетевые характеристики передачи пакетов в сетях IP. А рекомендация ITU-T Y.1541 задает нормы для характеристик и параметров, определенных в рекомендации ITU-T Y.1540.

В ITU-T Y.1540 рассматриваются следующие пять сетевых характеристик, как наиболее важные с точки зрения их влияния на качество обслуживания:

- пропускная способность сети;

- надежность сети и сетевых элементов;

-задержка;
- вариация задержки (джиттер); Приводит к искажению звука, т.е. речь становится неразборчивой.

- потери пакетов;

- коэффициент искажений пакетов.

Отправитель речевых пакетов передает их через фиксированные промежутки времени (например, через каждые 20 мс), но при прохождении через сеть задержки пакетов оказываются не одинаковыми, так, что они пребывают в пункт назначения через разные промежутки времени (рис с джиттером).

 

С выхода микрофона поступает аналоговый сигнал. Он поступает на кодер. Голосовые отсчеты берутся через 125 мкс. Значит при размере речевого кадра 160 байт время пакетизации составит:

125 мкс х 160 байт = 20 мс.

 

Протоколы RTP/RTCP

Информация поступает в виде пакетов, из нее нужно убрать заголовки. В буфере остаются кусочки речи. Протокол IP определяет маршрут передачи пакетов в сети. Между терминалами передается закодированный голос по протоколам RTP/UDP/PPP (Point to Point Protocol). Для установления сеанса связи необходим протокол SIP или H.323. Параллельно каждой сессии протокола RTP устанавливается сессия протокола RTCP. Таким образом, для передачи голоса потребуется 4 односторонних соединения (сессии). А=>В, В=>А это по протоколу RTP и еще 2 соединения по протоколу RTCP. Нам необходимо знать IP- адрес и номер порта, это называется Сокет. Порт RTP - четный - n, а порт RTCP - нечетный - n+1.

Существует 3 возможные конфигурации соединений:

1. Точка- точка А=>В

2. Широковещательная сессия А к В,С,Д.

 

3. Конференция - самая сложная. Еще одна особенность использование протокола RTP - использование транслятора который осуществляет перекодировку речи из кодека G.711 в G.729 или другой.

4. Смеситель.

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-06-03 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: