Стандарт кодирования MPEG-2

Даже в рамках одного стандарта, как показывает практика, передача сигналов телевидения - и цифровое здесь не исключение, ведется на разных уровнях качества. То же самое можно сказать и о телевизионных приемниках. Жесткие, а главное узкие допусковые интервалы, не жизненны, поскольку лишают систему гибкости, приспосабливаемости к разным условиям функционирования с ориентацией на различные слои потребителей. При этом любая перспективная система должна иметь резервы для перехода на более высокие уровни качества. Эти и многие другие соображения и требования легли в основу очень важного документ: ISO/IEC 13818-2.

В этом документе определено, что стандарт MPEG-2 - это целое семейство взаимносогласованных совместимых цифровых стандартов информационного сжатия телевизионных сигналов с различной степенью сложности используемых алгоритмов.

Градации качества ТВ изображения для вещательных систем в стандарте ISO/IEC 13818-2 устанавливаются введением четырех уровней для формата разложения строк ТВ изображения и пяти профилей для форматов кодирования сигналов яркости и цветности. Общая идеология построения стандарта поясняется таблицей.

ПРОФИЛИ, УРОВНИ, СОГЛАСОВАННЫЕ ТОЧКИ
Высокий 1920 отсчетов 1152 строки (активных)
Высокий уровень 1440 отсчетов 1152 строки (активных)
Основной уровень 720 отсчетов 576 строки (активных)
Низкий уровень 352 отсчета 288 строки (активных)
	Простой профиль без B кадров формат 4:2:2	Основной профиль без B кадров формат 4:2:0	Профиль с масштабируемым отношением с/ш B кадры формат 4:2:0	Специальный масштабируемый профиль B кадры формат 4:2:0	Высший профиль B кадры формат 4:2:0 или 4:2:2

Примечание: не отмеченные профили и уровни не определены как согласованные точки (нестандартизованы). Все цифровые параметры даны в Мб/с.

Расположенный в нижней части таблицы уровень называется "низким уровнем" и ему соответствует новый класс качества ТВ изображения, которое вводится в стандарте MPEG-2 - телевидение ограниченной четкости. В этом случае в кадре ТВ изображения содержится 288 активных строк (в два раза меньше, чем в телевидении обычной четкости) и каждая строка дискретизируется на 352 отсчета.

Кодирование сигналов телевидения обычной четкости выполняется в соответствии с основным уровнем, т.е. с форматом разложения на 576 активных строк в кадре, которые кодируются с использованием 720 отсчетов на строку.

Высокий-1440 и высокий-1920 предусматриваются для кодирования сигналов телевидения высокой четкости (ТВЧ). В обоих "высоких" уровнях кадр ТВ изображения содержит 1152 активные строки (вдвое больше, чем в телевидении обычной четкости). Эти строки дискретизируются соответственно на 1440 или 1920 отсчетов.

В стандарте используются 5 профилей, которым соответствует 5 наборов функциональных операций по обработке (компрессии) видеоданных. Некоторые из теоретически возможных наборов функциональных операций по компрессии видеоданных на этапе создания стандарта не были включены в таблицу. Они могут быть введены и стандартизованы в дальнейшем, если будет доказана их необходимость или полезность.

Профиль, в котором используется наименьшее число функциональных операций по компрессии видеоданных, назван простым профилем. В нем при компрессии видеоданных используется компенсация движения изображения и гибридное дискретно-косинусное преобразование.

Следующий профиль назван основным профилем. Он содержит все функциональные операции простого профиля и одну новую: предсказание по двум направлениям. Эта новая операция, естественно, повышает качество ТВ изображения.

Следующий за основным назван профилем с масштабируемым отношением сигнал/шум. Термин "масштабирование", в данном случае, означает возможность обмена одних показателей системы на другие. Этот профиль к функциональным операциям основного профиля добавляет новую - масштабирование. Основная идея - повышение устойчивости цифрового телевидения и сохранение работоспособности при неблагоприятных условиях приема. Операция масштабирования позволяет в рассматриваемом случае повысить устойчивость системы за счет некоторого снижения требований к допустимому уровню отношения сигнал/шум в воспроизводимом ТВ изображении.

При масштабировании поток видеоданных разделяют на две части. Одна из них несет наиболее значимую часть информации - ее называют основным сигналом. Вторую часть, несущую менее значимую информацию, называют дополнительным сигналом. Декодирование только одного основного сигнала позволяет получить ТВ изображение с пониженным отношением сигнал/шум. Одновременное декодирование основного и дополнительного сигналов повышает отношение сигнал/шум до исходного значения.

И все же, что можно извлечь из идеи деления потока данных на более и менее значимые части? А все дело в защите системы от ошибок. Помехоустойчивое кодирование требует введения дополнительных бит, что повышает общий поток информации. Задача упрощается, когда более мощная защита применяется только к части информации и тем самым соблюдается разумный баланс между уровнем потока видеоданных и степенью их защиты. При неблагоприятных условиях приема (например, при низкой напряженности радиополя, при приеме на комнатную антенну и т.п.) сохраняется возможность устойчивого декодирования более защищенного основного сигнала, а неустойчиво воспринимаемый дополнительный сигнал просто отключается. Как уже сказано, это ведет к росту уровня шума, зато система остается работоспособной.

Не так уж редки ситуации, когда сигналы приходится передавать по каналам с ограниченной пропускной способностью. Деление потока видеоданных на два, позволяет использовать и "плохие" каналы, ограничивая передачу основным сигналом.

Следующий, четвертый профиль назван специально масштабируемым профилем. Здесь, естественно, сохранены все операции предшествующего профиля и добавлена новая - разделение потока видеоданных по критерию четкости ТВ изображения. Этот профиль обеспечивает переходы между нынедействующими системами и телевидением высокой четкости. С этой целью видеоданные сигнала ТВЧ разделяются на три потока. Первый - это основной (значимый) поток видеоданных, например, по стандарту разложения на 625 строк. Второй поток несет дополнительную информацию об изображении с числом строк до 1250. Одновременное декодирование первого и второго потоков видеоданных позволяет получить телевизионное изображение высокой четкости, но с пониженным отношением сигнал/шум. В третьем потоке сосредоточена менее значимая информация, его декодирование позволяет повысить отношение сигнал/шум в видеоканале до уровня, принятого в ТВЧ. Обычно первый поток видеоданных, представляющих сигнал 625-строчного ТВ, - это 6 Мбит/с, дополняющий его до ТВЧ - 6 Мбит/с, а повышающий отношение сигнал/шум до уровня, когда шумы визуально незаметны - 12 Мбит/с.

В рассмотренных четырех профилях при кодировании сигналов яркости и цветности используется формат представления видеоданных 4:2:0, в котором число отсчетов сигналов цветности по сравнению с сигналом яркости уменьшается в два раза не только по горизонтальным, но и по вертикальным направлениям. Следующий, пятый профиль называется высшим профилем, и он включает в себя все функциональные операции специального профиля 4:2:2, при котором число отсчетов сигналов цветности в вертикальных направлениях остается тем же, что и у сигнала яркости (см. рис.).

Рис. 1 Форматы представления видеоданных

Приведенные в таблице пять профилей и четыре уровня образуют двадцать возможных комбинаций видеосигнала, из которых, вероятнее всего, только одиннадцать будут полезными или необходимыми. Для этих комбинаций (согласованные точки) в таблице указаны максимальные значения скорости передачи видеоданных. Комбинации, которые сегодня не вызывают интереса, в стандарте MPEG-2, пока, не нормированы и в таблице отмечены крестами.

Для всех стандартизованных точек указаны максимальные потоки видеоданных, которые позволяют получить ТВ изображение, свободное от каких-либо дефектов. В иных случаях они могут проявиться в процессах кодирования/декодирования видеосигнала. Используемые в конкретных кодеках потоки видеоданных могут быть меньше (в несколько раз) указанных значений. Выбор уровня компрессии и, в конечном итоге, уровня потока зависит от допустимой степени искажений ТВ изображения.

Таким образом, стандарт MPEG-2 позволяет гибко менять скорость передачи видеоданных в очень широких пределах. Надо заметить, что системы кодирования стандарта MPEG-2 могут работать как с чересстрочной, так и с прогрессивной развертками, при частоте полей 50 или 60 Гц и т. д. Для каждой стандартизованной точки таблице оговорено число отсчетов сигнала яркости на активной части строки. Рассмотренные комбинации параметров информационного кодирования пригодны для работы с различными цифровыми трактами и накопителями (записывающими устройствами).

Стандарт MPEG-2 принципиально нацелен в будущее, все богатство упомянутых выше комбинаций станет работать, хотя и скоро, но не сейчас. Так, промышленность готова и будет выпускать в этом году ТВ приемники только одной системы кодирования: "Основной уровень - Основной профиль" с чересстрочным разложением изображения на 625 строк. Эта система принята для первого поколения цифровых телевизоров для непосредственного ТВ приема со спутников, работающих в диапазоне 11/12 ГГц, и кабельной сети распределения.

Сказанное не означает, что массовый выпуск бытовых телевизоров для иных профилей и уровней, пока и до лучших времен, закрыт. Любая вещательная организация вправе использовать систему нового уровня кодирования. Просто следует публично заявить о намерениях и начать "переговорный процесс" с возможными изготовителями соответствующих телевизоров. Следует добавить, что при реализации системы по конкретному уровню/профилю необходимо пронормировать и поток видеоданных, который не должен превышать максимальные значения скоростей, указанные в стандартизованных точках (см. табл.). Если в системе планируется использовать несколько скоростей передачи видеоданных, следует указать максимальную из них.

Компрессия видеоданных

Телевизионный сигнал, как известно, избыточен. Различают статистическую избыточность, избыточность по восприятию, структурную и спектральную избыточность. По теории вероятностей избыточность является следствием определенных корреляционных связей. Корреляция означает, что некоторый элемент изображения более или менее существенно зависит от соседей в пространстве и во времени. Под статистической избыточностью понимают корреляционные связи между соседними (по вертикали и горизонтали) отсчетами ТВ сигнала. Сразу же надо подчеркнуть, что снижение избыточности в этом случае до определенных пределов обратимо, т. е. без потерь информации. Примером такого "беспроигрышного" кодирования служит предсказание на основе дискретно-косинусного преобразования. Можно назвать и другие разностные методы.

Избыточность по восприятию связана с особенностями зрения человека. Например, цветовое разрешение нашего зрения ниже яркостного. Эта особенность учтена во всех стандартных аналоговых системах цветового кодирования. В NTSC, PAL, SECAM цветовое разрешение существенно понижено по отношению к яркостному. То же самое зафиксировано в цифровом стандарте 4:2:2, где, по определению, две цветоразностные компоненты представлены таким же по объему информационным массивом, что и один яркостный сигнал.

Учитывая эту особенность нашего зрения по восприятию мелких деталей цветного изображения, можно в несколько раз сократить полосу частот при передаче и кодировании сигналов цветности.

Структурная избыточность - итог особенностей стандарта разложения или, по иному, преобразования изображения в ТВ сигнал. В нем, например, периодически передаются неизменные по форме элементы сигнала: гасящие импульсы строк и полей. В цифровом ТВ сигнале нет необходимости передавать эти импульсы по каналу связи, т.к. они могут быть восстановлены в декодере по опорным сигналам синхронизации. Устранение из состава цифрового ТВ сигнала гасящих импульсов строк и полей снижает скорость передачи видеоданных примерно на 23%. Естественно, эта особенность сигнала учтена в стандарте MPEG-2.

Спектральная избыточность проявляется как результат излишне высокой частоты дискретизации. В частности, принятая ортогональная структура дискретизации ТВ изображения в общем случае не является оптимальной в частотном пространстве. Используя интерполяцию и передискретизацию определенным образом выбранных групп отсчетов ТВ сигнала, можно, в принципе, видоизменить спектральный состав и снизить частоту дискретизации. Такая обработка обычно необратима и, как правило, ведет к некоторому снижению качества восстановленного ТВ изображения. В стандарте MPEG-2 этот вид избыточности не устраняется.

Итак, в MPEG-2 применены известные, давно апробированные методы сокращения избыточности. Вместе с ними использованы и новые подходы. В особенности это относится к совокупности согласованных алгоритмов сокращения статистической избыточности. Здесь особо эффективными оказались два метода: кодирование ТВ отсчетов с предсказанием и дискретно-косинусное преобразование

Кодирование с предсказанием реализуется с помощью дифференциальной импульсно-кодовой модуляции (часто используется аббревиатура ДИКМ). При кодировании с предсказанием вычисляется разность между истинным и предсказанным значением отсчета. Затем разность квантуется по уровню. От точности предсказания зависит среднее число бит, необходимых для передачи разностной информации. Предсказание может быть экстраполяционным. В этом случае (его часто называют предсказанием вперед) по предшествующим значениям отсчетов ТВ сигнала оцениваются последующие отсчеты. Интерполяционное (двунаправленное) предсказание означает, что оценка среднего по положению отсчета ТВ сигнала выполняется по известным значениям предшествующих и последующих отсчетов. Такое предсказание наиболее точно оценивает текущие отсчеты. Однако за точность приходится расплачиваться возросшим объемом вычислений и соответственно памяти, необходимой при реализации. При этом эффект не окупает затраты.

Как уже отмечалось, предсказание выполняется по соседним с предсказываемым отсчетам, причем под соседними надо понимать отсчеты, расположенные "до и за" рассматриваемым. К ним надо добавить соседей в предшествующей и последующей строках, полях и кадрах. Таким образом, возможно построчное, межстрочное, внутриполевое, внутрикадровое, межполевое и межкадровое предсказание. Это полный набор возможных направлений корреляций. Но уже подчеркивалось, что предсказание вдоль отдельной строки по предшествующему и последующему элементу неэффективно. По этому же критерию можно отсеять и некоторые другие возможные направления.

При простейшем внутриполевом предсказании вперед предшествующий отсчет ТВ строки принимается как ожидаемый уровень последующего отсчета. Фактически это означает вычеркивание постоянной составляющей или, что тоже самое, выделение разностной информации. Такой метод предсказания особенно эффективен, когда передаются крупные, не содержащих мелких деталей, фрагменты изображения, где яркость постоянна или изменяется медленно.

Другой способ - межкадровое предсказание вперед. В этом случае текущий отсчет оценивается по отсчету с теми же координатами, но предыдущего кадра. Это очень эффективный метод предсказания для неподвижных изображений. Ситуация усложняется, когда изображение содержит движущиеся объекты или изменятся в целом. В этом случае отсчеты, принадлежащие однотипным элементам изображения от кадра к кадру будут смещаться. Возникает разностная информация, даже если в остальном никаких изменений не происходит. Это можно ослабить, если ввести компенсацию движения. Для этого необходимо определить векторы перемещения движущихся частей изображения при последовательном переходе от кадра к кадру. Векторы движения позволяют определить положение кодируемого отсчета в новом кадре (скомпенсировать его перемещение) и, таким образом, сохранить высокую точность предсказания.

Кодируемые кадры

Базовым объектом кодирования в стандарте MPEG-2 является кадр ТВ изображения. Это не случайно и обеспечивает преемственность со стандартом JPEG, принципиально ограничивающимся внутрикадровым кодированием. При этом очевидно, что для ТВ сигналов, в которых смешаны различные сюжеты с разными типами движений "от ничего до много" простое предсказание, в принципе, не обеспечит высокую эффективность. По этой причине в стандарте используются три вида предсказаний: внутрикадровое и межкадровое предсказание вперед с компенсацией движения, межкадровое двунаправленное предсказание также с компенсацией движения.

Так называемые I кадры обрабатываются только с применением внутрикадрового предсказания. Обработка ведется на основе алгоритмов, подобных используемым в стандарте JPEG. Это первый этап, где сжатие видеоданных относительно невелико, но зато при восстановлении ТВ изображения оно менее всего деградирует и зависит от ошибок кодирования и передачи видеоданных по каналу связи. I кадры служат опорными при межкадровом предсказании Р и В кадров. Кодирование Р кадров выполняется с использованием алгоритмов компенсации движения и предсказания вперед по предшествующим I или Р кадрам. В Р кадрах, если сравнивать их с I кадрами, в три раза выше достижимая степень сжатия видеоданных.

Обработка видеоданных в Р кадре выполняется по макроблокам. Это квадратные матрицы 16 х 16 (отсчетов х строк). Такой макроблок обрабатывается с использованием алгоритмов компенсации движения и предсказания вперед, пока в блоке не появится новый объект. С этого момента процесс кодирования переключается на алгоритмы, используемые в I кадрах, т. е. на внутрикадровое предсказание. Р кадры являются опорными для последующих Р или В кадров. Отметим, что необходима высокая точность восстановления исходного изображения при декодировании опорных Р кадров. Дело в том, что ошибки опорного кадра распределяются по всем кадрам, связанным с опорным.

Алгоритмы кодирования В кадров зависят от характера ТВ изображения. Предусмотрено четыре способа кодирования. В одном применяется компенсация движения и предсказание вперед по ближайшим предшествующим опорным I или Р кадрам, в другом - компенсация движения и обратное предсказание по ближайшим последующим I или Р кадрам. Обратное предсказание используется в тех случаях, когда в кодируемом В кадре появляются новые объекты изображения. Третий алгоритм - компенсация движения и двунаправленное предсказание, при котором опорными являются предшествующий или последующий I или Р кадры. И, наконец, это внутрикадровое предсказанием без компенсации движения. Такое кодирование нужно при резкой смене передаваемых сюжетов, а также при больших скоростях перемещения объектов ТВ изображения. С В кадрами связано наиболее глубокое сжатие видеоданных. Поскольку высокая степень сжатия снижает точность восстановления исходного ТВ изображения, В кадры не используются в качестве опорных. Ошибки при их декодировании не распределяются по другим кадрам.

Очевидно, что точность кодирования должна быть максимальной для I кадров, ниже для Р кадров и минимальной для В кадров.

Типичным является следующий порядок кодирования I, Р, В кадров: В кодере вырабатываются следующие группы, состоящие из 12 чередующихся кадров: I0, B1, B2, P3, B4, B5, P6, B7, B8, P9, B10, B11, I12, B13, B14, P15 и т. д., в которых I кадры следуют с интервалом: (1/25 Гц) х 12= 0,48 с.

При передаче по каналу связи порядок следования I, Р и В кадров меняется. В декодер в начале поступают опорные I и Р кадры, без которых нельзя начать декодирование. Типичным является следующий порядок передачи I, P, B кадров: I0, P3, B1, B2, P6, B4, B5, P9, B7, B8, I12, B10, B11 - P15, B13 и т. д.

Компенсация движения

В стандарте MPEG-2 используется метод компенсации движения, основанный на макроблоках. Два смежных кадра, содержащих только активные строки сигнала яркости (576 активных строк), разбиваются на макроблоки и более крупные зоны поиска. Размеры макроблока должны быть согласованы со структурой дискретизации кадра ТВ изображения. В стандарте MPEG-2 блок -это квадратная матрица отсчетов размером 16 строк по вертикали и 16 столбцов (отсчетов) по горизонтали. Отметим, что при таком формате блока, ТВ кадр разбивается на целое число зон. По вертикали (576 активных строк/16) - это 36 зон, по горизонтали (704 активных отсчета/16) - 44 зоны.

Зона поиска должна быть достаточно большой, чтобы быстро движущийся макроблок изображения первого кадра не вышел из зоны поиска второго кадра. Размеры зоны поиска ограничиваются объемом вычислений, которые необходимо выполнить в реальном масштабе времени. Эти размеры также должны быть согласованы с принятой структурой дискретизации ТВ кадра. Обычно, они в 4 раза больше размеров отдельного макроблока. Иными словами, размеры зоны поиска - это 64 х 64. Таким образом, в ТВ кадре создается 576/64 = 9 зон поиска по вертикали и 704/64 = 11 зон по горизонтали.

К примеру, надо определить координаты движения при предсказании вперед, Для этого берется макроблок отсчетов первого кадра и ищется его новое положение в зоне поиска второго кадра, вычисляются межкадровые разности отсчетов. Положение макроблока, при котором суммарное значение модулей межкадровых разностей макроблока получается наименьшим, принимается за его реальное перемещение, после чего координаты вектора движения рассчитываются как смещение макроблока по вертикали и горизонтали относительно его начального положения.

Стандарт кодирования MPEG-2

Поиск по сайту