Кодирование визуальных объектов

Первоначально предполагалось ограничить пределы скорости цифрового потока МРЕG-4 видео значениями 4,8 кбит/с снизу и 64 кбит/с сверху. Однако в ходе разработки стало ясно, что заложенные принципы кодирования значительно мощнее, чем только кодирование на сверхнизких скоростях. Предел сверху был расширен до 10 Мбит/с в первой версии, до 38 Мбит/с во второй версии и ведется работа по его дальнейшему расширению. Тем не менее, визуальная часть стандарта не предназначена для вещательного телевидения, хотя и может обеспечить очень высокое качество изображения.

Основные требования, заложенные в разработку второй части стандарта, сводились к трем условиям: эффективное кодирование натуральных и синтетических изображений; высокая функциональность в интерактивном окружении; устойчивость в среде распространения с ошибками.

Средства представления натурального видео в МРЕG-4 обеспечивают стандартизованную технологию обработки, хранения и передачи текстуры, изображений и видео для мультимедийных применений. В отличие от МРЕG-2, где вся сцена раскладывалась до пиксела и затем осуществлялось однородное кодирование всего изображения, в МРЕG-4 сцена разбивается на видеообъекты, для каждого объекта описываются его форма, текстура, местоположение, оптические характеристики (яркость, цвет, положение светотени), параметры движения — перемещение, вращение, изменение масштаба, данные кодируются со сжатием, упаковываются в отдельные ЭП (по несколько потоков на каждый объект), мультиплексируются и передаются декодеру. Визуальная сцена может состоять из одного или нескольких объектов. Каждый объект характеризуется пространственной и временной информацией в виде формы, текстуры и движения. Для некоторых приложений введение понятия визуального объекта оказывается неоправданно сложным, для них МРЕG-4 допускает кодирование прямоугольными кадрами, которые представляют собой вырожденный случай объекта произвольной формы.

Пользователь может восстановить сцену в ее исходном виде, а может произвести определенные манипуляции — исключить часть объектов или ввести новые, изменить точку взгляда, масштаб, цвет и т.д. Разумеется, пользователь может внести только те изменения, которые предусмотрел автор.

Стандарт обработки визуальных объектов поддерживает широкий диапазон изменения входных параметров видеопоследовательности. Развертка может быть прогрессивной и чересстрочной, пространственное разрешение по яркости — от 8 8 до 2048 2048 пикселей (SQCIF, QCIF, CIF, 4CIF, Рек. ВТ.601); в цветовом пространстве допускаются сигналы монохромный и Y, С_В, С_R; пространственное разрешение по цветности «4:0:0», «4:2:0» и «4:2:2» (только в студийном профиле); частота кадров может изменяться от 0 до 30 Гц и более, причем может меняться от кадра к кадру; разрядность квантования — 8 бит с возможностью изменения от 4 до 12 бит. Нетрудно убедиться, что возможности выбора параметров значительно шире, чем даже в МРЕG-2.

В зависимости от скорости цифрового потока могут использоваться алгоритмы, относящиеся к одной из трех групп:

1) Низкоскоростное видео (VLBV — Vеrу Low Вit-rаtе Vidео) — скорость 5...64 кбит/с, разрешение не выше СIF, частота кадров до 15 Гц; основное назначение — кодирование обычных прямоугольных изображений с высокой эффективностью для мультимедийных приложений реального времени, а также системы случайного доступа к мультимедийным базам данных с быстрым поиском «вперед» и «назад»;

2) Высокоскоростное видео — скорость 64 кбит/с... 10 Мбит/с; те же применения, но с более высоким пространственным и временным разрешением, вплоть до Рек. ВТ.601, также мультимедийное вещание или обратный канал в интерактивных системах с качеством, сравнимым с цифровым вещанием; системы с чересстрочной разверткой;

3) Кодирование, основанное на контенте, — поддерживает отдельное кодирование и декодирование натуральных объектов в сценах с гибридным кодированием; эта группа допускает смещение некоторого числа видеообъектов с синтетическими объектами (виртуальные задники).

Визуальный цифровой поток МРЕG-4 можно изобразить иерархической последовательностью уровней, как показано на рисунке 3.3. Последовательность визуальных объектов (VS — Visual Оbjесt Sеquеnсе) в этой иерархии соответствует видеопоследовательности в МРЕG-2 и отображает сцену с произвольным числом 2D и 3D натуральных и синтетических объектов и их

Рисунок 3.3 - Структура визуального цифрового потока

улучшающих слоев. Видеообъект (VО) соответствует обычному двумерному объекту в сцене. В самом простом случае он может быть прямоугольным кадром, в общем случае — объектом произвольной формы. Слой видеообъекта (VOL) — соответствует каждому ЭП, описывающему видеообъект. VOL может быть полнофункциональным или с укороченным заголовком, в этом случае он совместим с потоком стандарта Н.263. Каждый видеообъект дискретизируется во времени и такой временной срез (отсчет) видеообъекта называется плоскостью видеообъекта (VОР). Несколько плоскостей могут объединяться в группу плоскостей видеообъекта (GOV).

Плоскости видеообъекта могут кодироваться независимо (I-кодирование), или совместно, с применением компенсации движения (Р- и В-кодирование). Обобщенная схема кодера МРЕG-4 показана на рисунке 3.4. Она включает кодирование формы и компенсацию движения, а также кодирование текстуры, базирующееся на ДКП (стандартное или адаптивное к форме объекта). Каждый видеообъект кодируется отдельно, затем цифровые потоки объединяются.

В стандарте МРЕG-4 применяются два метода кодирования информации о форме объекта — бинарное и градационное. При бинарном кодировании оперируют матрицей того же размера, что и плоскость видеообъекта, элементы которой могут принимать значения только 1 или 0 в зависимости от того, находятся ли они внутри объекта или вне его. Градационное кодирование более гибкое, оно описывает элементы матрицы 8-битовыми словами и позволяет кодировать «полупрозрачные» и «затуманенные» изображения.

Рисунок 3.4 - Обобщенная структурная схема видеокодера МРЕG-4

Для цифрового сжатия плоскости видеообъектов, содержащие информацию о перемещении и текстуре, разбиваются на макроблоки размером 8 8 или 16 16 пикселей, содержащие блоки отсчетов яркости и цветности, к этим последним применяется ДКП с последующим квантованием и кодированием квантованных разностей. Процесс схож с обычным цифровым сжатием из предыдущих стандартов МРЕG.

При кодировании текстуры поступают следующим образом. На плоскость видеообъекта накладывают решетку с ячейками 8 8 элементов. Те ячейки, которые полностью разместились внутри объекта, кодируются обычным ДКП, за исключением того, что после квантования производится дополнительное предсказание коэффициентов блока на основе соседних блоков. Блоки, которые оказались на границе видеообъекта, дополняются до размера 8 8 по определенным правилам и только после этого кодируются (так называемое Shаре-Аdарtivе DСТ — ДКП, адаптивное к форме).

Более эффективный метод кодирования текстуры и неподвижных изображений поддерживается специальным режимом кодирования в МРЕG-4, основанным на волновом преобразовании с нулевым деревом. Наряду с высокой эффективностью сжатия этот метод обеспечивает пространственную масштабируемость (до 11 уровней) и непрерывную масштабируемость по качеству.

Рисунок 3.5 - Масштабируемое кодирование/декодирование в стандарте МРЕG-4

Масштабируемость в МРЕG-4 обеспечивается передачей для видеообъекта нескольких цифровых потоков — VOL, один из которых базовый, остальные — улучшающие. При пространственном масштабировании может быть достигнуто улучшенное пространственное разрешение, временное масштабирование сглаживает движение. На рисунке 3.5 показано, как в этом случае кодер и декодер обрабатывают поступающие потоки. Предпроцессор субдискретизирует поступающие VОР и разделяет их на базовый и улучшающий слои. Поток базового слоя передается обычным путем, а в канале улучшающего слоя передается только разность между сигналом, поступившим от процессора, и сигналом, восстановленным промежуточным процессором путем повышающей дискретизации. На приеме процессы происходят в обратном порядке.

Дальнейшему сокращению цифрового потока способствует глобальная компенсация движения, основанная на передаче статических спрайтов. Спрайтом называется часть видеообъекта, которая устойчиво присутствует в нем практически без изменений на протяжении довольно длительного времени. Это могут быть, например, панорамный задний план или группа неподвижных предметов, закрывающая значительную часть кадра. Такое почти статическое изображение может быть передано полностью один раз, в начале трансляции, а затем корректироваться декодером по мере необходимости. Информация о форме и текстуре спрайта кодируется как I-VОР. Для каждого следующего изображения в последовательности кодируются только 8 параметров глобального движения, описывающих движения телекамеры. Чтобы снизить задержку, сначала передают часть информации спрайта с грубым квантованием, а затем добавляют более тонкие структурные особенности. Можно также передать часть изображения, необходимую для реконструкции первых VОР, а затем дослать по частям остальные участки спрайта. На практике применяется сочетание обоих методов.

На рисунке 3.6 схема декодера показана более детально. Здесь видно, как обрабатываются и затем объединяются данные о форме и текстуре изображения.

В цифровом потоке визуальной информации применяются дополнительные меры для повышения устойчивости к ошибкам:

Ресинхронизация: после определенного количества битов в поток вводятся маркеры, отмечающие точки, к которым декодер переходит при потере части битов в потоке.

Разделение данных: данные о перемещении и о текстуре разделяются на более мелкие порции для облегчения маскирования.

Код расширения заголовка: вводится дополнительная кодозащита в заголовок пакета, повышающая его устойчивость к ошибкам.

Реверсивное кодирование с переменной длиной: кодовые слова ревер

Рисунок 3.6 - Декодирование видеокадра МРЕG-4

сивного кода могут декодироваться как с начала, так и с конца. Если декодер встречает поврежденные биты, он не отбрасывает всю оставшуюся часть слова, а декодирует его с противоположного конца до поврежденного участка, минимизируя потери.

Синтетические объекты представляют значительный раздел компьютерной графики. В стандарт МРЕG-4 включены следующие операции с объектами такого рода: параметрические описания синтезированного лица и фигуры; кодирование статических и динамических сеток с отображением текстуры; кодирование текстуры для проективных приложений.

Метод анимации предполагает однократную передачу базового статического образа и последующую досылку сообщений, описывающих динамические изменения объекта. В первой версии стандарта этот метод используется для передачи синтезированного человеческого лица. За основу берется обобщенный шаблон лица с нейтральным выражением — один из хранимых в базе или специально загружаемый на передающей стороне. Он дополняется индивидуальными чертами, текстурой, выражением с помощью управляющих параметров (Fасiаl Definition Раrаmеtеrs — параметры, определяющие лицо), другая группа параметров (Fасiаl Аnimаtiоn Раrаmеtеrs — параметры анимации лица) изменяет выражение лица, вводит мимику, артикуляцию. Параметры передаются в отдельных потоках, для сжатия используется кадровое кодирование с ДКП.

Двумерная сетка представляет собой часть плоскости, поделенную на полигональные (многоугольные) участки. Точки пересечения линий называются узлами. МРЕG-4 рассматривает только треугольные сетки. Сетка может быть заполнена текстурой, тогда ее называют контентно-наполненной (content-based). Для описания сетки в динамике достаточно передать геометрию сетки и описать движение всех ее узлов. При этом треугольные участки текущего кадра получаются путем деформации треугольных участков опорного кадра, текстура также деформируется путем параметрического отображения векторов перемещения узлов сетки.

Двумерное моделирование может быть использовано для эффективного сжатия, если передавать опорные ключевые кадры и посылать векторы перемещения и информацию о текстуре для восстановления промежуточных кадров.

Во второй версии стандарта добавлены новые технологии и алгоритмы, позволившие повысить эффективность кодирования, устойчивость к ошибкам, улучшить временное разрешение при малой задержке в буфере. В частности, введен режим глобальной компенсации движения, точность компенсации повысилась до 1/4 пиксела, внедрены три новых инструмента кодирования текстуры и неподвижных изображений: волновое кодирование с разделением на небольшие самостоятельно кодируемые участки, масштабируемое кодирование формы, сегментация и пакетирование для повышения устойчивости к ошибкам.

Интересным новшеством второй версии является возможность кодирования кратных изображений (стереоскопических или полученных с близких точек) с устранением избыточности между ними. Этот режим основан на методе градационного кодирования формы объекта и использует дополнительные возможности данного метода.

В области синтетических изображений основными нововведениями второй версии можно считать средства анимации человеческой фигуры (теми же методами, что и лица в первой версии) и кодирование трехмерных полигональных сеток.

Кодирование визуальных объектов

Поиск по сайту