МРЕG-4 представляет собой обширный набор средств и алгоритмов кодирования аудиовизуальных объектов. Чтобы сделать реализацию декодера экономически оправданной и облегчить проверку на соответствие стандарту, в некоторых разделах определены ограниченные наборы инструментов, называемые Профилями. Для каждого из профилей установлены один или несколько уровней, ограничивающих требования к вычислительным способностям декодера. Понятие Профиля введено для визуальных объектов, аудио, системы и описаний сцены. Однако специфика МРЕG-4 потребовала некоторых дополнений по сравнению с предшествующими стандартами. В МРЕG-2 видеокадр можно представить себе как один прямоугольный объект, занимающий всю сцену, и для него достаточно определить один профиль. В МРЕG-4 объектов может быть несколько, для каждого оптимальным будет свой профиль, поэтому введена дополнительная градация, как промежуточная между уровнем и профилем - тип объекта. Этот параметр определяет синтаксис (структуру) цифрового потока для одиночного объекта. Профиль же определяет набор типов объектов, которые могут присутствовать в сцене.
Для натуральных объектов определены пять типов объектов:
1) Простой — прямоугольный объект с произвольным форматом, использует простые средства кодирования, основанные на I- и Р-VОР.
2) Простой масштабируемый — прямоугольный объект с пространственным и временным масштабированием.
3) Базовый - производный от Простого, с добавлением В-VОР. Чересстрочная развертка не поддерживается.
4) Основной — обеспечивает высшее качество, по сравнению с Базовым дополнительно поддерживает градационное кодирование формы, спрайты, чересстрочное разложение.
|
5) N-битовый — аналогичен Базовому, но допускает квантование плоскостей яркости и цветности с разрядностью от 4 до 12 бит.
Для кодирования неподвижных натуральных визуальных объектов существует специальный тип объекта:
6) Неподвижная масштабируемая текстура — неподвижное изображение произвольной формы, использует волновое кодирование и пошаговую загрузку и восстановление.
Для синтетических объектов определены следующие три типа объектов:
7) Анимированная двумерная сетка — объединяет синтетическую сетку (прямоугольную или топологии Делоне) с натуральным видео, кодируемым по Базовому типу. Видео может отображаться на сетку и деформироваться путем перемещения ее узлов — это дает интересные анимационные возможности. Визуальный объект может быть любой формы.
8) Базовая анимированная текстура — анимация неподвижных изображений (таких, как в типе 6).
9) Примитивное лицо — средство анимации человеческого лица. Этот тип объекта не определяет конкретное лицо, анимация может быть применена к любой выбранной модели.
Профили, как уже сказано, определяют, какие типы визуальных объектов могут присутствовать в сцене. В первой версии стандарта 9 профилей, допустимые сочетания профилей и типов объектов приведены в таблице 3.1. Простой профиль допускает присутствие только объектов Простого типа и предназначен в первую очередь для мобильных служб и Интернета. Он поддерживает до 4-х объектов в сцене с максимальным разрешением QCIF, три уровня ограничивают скорость потока в пределах от 64 до 384 кбит/с, макси-
|
Таблица 3.1 - Профили и типы объектов МРЕG-4 видео
Профиль Тип объекта | Простой | Простой масштабируемый | Базовый | Основной | N-битовый | Масштабируемая текстура | Простой, анимация лица | Базовая анимированная структура | Гибридная |
Простой | ● | ● | ● | ● | ● | ● | |||
Простой масштабируемый | ● | ||||||||
Базовый | ● | ● | ● | ● | |||||
Основной | ● | ||||||||
N-битовый | ● | ||||||||
Масштабируемая текстура | ● | ● | ● | ● | |||||
Анимированная D-сетка | ● | ||||||||
Базовая анимированная структура | ● | ● | |||||||
Примитивное лицо | ● | ● | ● | ||||||
Число уровней |
мальную площадь, занимаемую объектом, и число макроблоков в секунду, которое декодер должен обработать. Простой масштабируемый профиль может осуществлять кодирование с масштабированием при тех же предпосылках, имеет два уровня.
Базовый профиль воспринимает типы объектов Простой и Базовый, полезен для интерактивных приложений. Основной профиль создавался с учетом вещательных служб. Самый высший уровень Основного профиля поддерживает до 32 объектов Простого, Базового или Основного типа и максимальную суммарную скорость потока до 38 Мбит/с. N-битовый профиль работает с объектами Простого, Базового и N-битового типа и полезен в специальных системах наблюдения и медицинского контроля, где требуется широкий динамический диапазон яркости и насыщенности.
|
Из остальных профилей наибольший интерес представляет Гибридный, объединяющий натуральные (Базовый) и синтетические (все три) типы объектов. Он полезен при помещении «реального» объекта в синтетический мир и, наоборот, синтетического объекта в реальное окружение.
В нижней строке таблицы 3.1 указано число уровней, определенных в стандарте для каждого профиля. В таблице 3.2. показаны параметры потока для некоторых уровней.
Таблица 3.2 - Параметры потока для некоторых профилей МРЕG-4 видео
Профили и уровни | Типовой размер сцены | Скорость потока, бит/с | Максимальное число объектов | Общая ёмкость памяти, макроблоков | |
Простой профиль | L1 | QCIF | 64 к | ||
L2 | CIF | 128 к | |||
L3 | CIF | 384 к | |||
Базовый профиль | L1 | QCIF | 384 к | ||
L2 | CIF | 2 М | |||
Основной профиль | L2 | CIF | 2 М | ||
L3 | Рек. 601 | 15 М | |||
L4 | 1920 ![]() | 38,4 М |
В стандарте установлены следующие точки соответствия: Простой профиль и Базовый профиль с размерами сцены QСIF и СIF, скоростями потока 64, 128, 384 кбит/с и 2 Мбит/с. Для Основного профиля нормируются форматы СIF, Рек. ВТ.601, ТВЧ со скоростями 2, 15 и 38,4 Мбит/с.
Вторая версия стандарта добавила три профиля к натуральному видео:
1) Простой усовершенствованный профиль реального времени — обеспечивает эффективное кодирование с использованием обратного канала (видеотелефония, телеконференции, дистанционное наблюдение).
2) Базовый масштабируемый профиль — поддерживает пространственное и временное масштабирование в Базовом профиле.
3) Профиль с улучшенной эффективностью кодирования — подходит для мобильного приема вещательных передач и других применений, где требуется высокая эффективность кодирования.
Три новых профиля введены в синтетическое видео, в том числе Простой
профиль анимации лица и фигуры. Общее число визуальных профилей достигло 15.
Уже после принятия второй версии продолжается работа над дополнениями к стандарту. В частности, предполагается ввести Студийный профиль, в котором VОР с кодированием формы могли бы передаваться со скоростью несколько сот мегабит в секунду. В таблице 3.3 показаны основные параметры предлагаемого профиля.
Таблица 3.3 - Параметры предлагаемого студийного профиля стандарта МРЕG-4
Уровень | Максимальный размер изображения и частота кадров | Максимальная скорость отсчетов | Скорость цифрового потока, Мбит/с | Квантование, дискретизация | |
Низкий (совместим с 4:2:2 P@HL) | 1920 ![]() | 10 битов 4:2:2 | |||
Основной | 4:2:2 | 2048 ![]() | 10 битов 4:2:2 | ||
4:4:4 | 10 битов 4:2:2 4:4:4 | ||||
Высокий | 4:2:2 | 4096 ![]() | 10/12 битов 4:2:2 | ||
4:4:4 | 10/12 битов 4:2:2 4:4:4 |
Низкий уровень этого профиля мог бы соответствовать высокому уровню профиля «4:2:2» из стандарта МРЕG-2, в двух других уровнях предлагается ввести два подуровня — с дискретизацией «4:2:2» и «4:4:4». Группа
Таблица 3.4 - Требования к декодеру звука масштабируемого профиля
Тип объекта | Тактовая частота, кГц | Быстродействие процессора, млн. операций/с | Ёмкость памяти, тыс. слов |
ААС Основной | |||
ААС Простой | |||
ААС с масштабируемой тактовой частотой | |||
ААС с долговременным предсказанием | |||
ААС Масштабируемый | |||
Twin VQ | |||
CELP | |||
CELP | |||
CELP | 8/16 | ||
HVXC |
МРЕG изучает кодирование 2D и 3D анимаций, цифровой кинематограф и другие вопросы.
Таблица 3.5 - Профили и типы объектов МРЕG аудио
Профили Типы объектов | Речевой | Масштабируемый | Основной | Синтетический |
ААС Основной | ● | |||
ААС с масштабируемой тактовой частотой | ● | |||
ААС Простой | ● | ● | ||
ААС с долговременным предсказанием | ● | |||
ААС Масштабируемый | ● | ● | ||
Twin VQ | ● | ● | ||
CELP | ● | ● | ● | |
HVXC | ● | ● | ● | |
TTSI | ● | ● | ● | |
Основной Синтетический | ● | ● | ||
Wavetable Синтезатор | ● | ● | ||
Общий MIDI | ● | ● | ||
Алгоритмический синтез | ● | ● | ||
Число уровней |
Как и для видеообъектов, в стандарте введена классификация типов объектов для звука. В общей сложности первая версия определила 15 типов объектов, часть из них базируется на алгоритме ААС, один на алгоритме Twin VQ, три типа объектов связаны с алгоритмами кодирования речи, еще четыре определяют типы объектов для синтезированных звуков. Определены 4 профиля кодирования звука:
1) Речевой профиль — совместим с тремя «речевыми» типами объектов, имеет два уровня, допускает до 20 объектов в сцене одновременно.
2) Масштабируемый профиль — обеспечивает высококачественное кодирование при низкой скорости цифрового потока и гибкое приспособление к изменениям скорости в канале, наилучшим образом приспособлен для передачи звука в Интернете. Число объектов в сцене, число потоков и частоты дискретизации определяются четырьмя уровнями, определенными в условных «единицах сложности» — производительности процессора в миллионах операций в секунду (РСU) и объеме памяти в тысячах слов (RCU):
Уровень 1: один моно объект любого типа, частота дискретизации до 24 кГц;
Уровень 2: один стерео или два моно объекта, частота до 24 кГц;
Уровень 3: один стерео или два моно объекта, частота до 48 кГц;
Уровень 4: один объект 5.1 или группа объектов, частота до 48 кГц, сложность до 30 РСU и 19 RCU.
В качестве примера в таблице 3.4 приведены требования к декодеру, работающему в одном из уровней данного профиля.
3) Синтетический профиль — группирует типы объектов синтезированного звука, может использоваться в тех случаях, когда источником звука служит не микрофон и требуется обеспечить передачу при очень низких скоростях.
4) Основной профиль — наиболее сложный профиль, объединяющий возможности всех остальных; пригоден для звуков всех видов, обеспечивает высочайшее качество звучания. Примеры применения — запись на DVD и мультимедийное вещание. Профиль имеет 4 уровня.
Соответствие звуковых профилей и типов объектов показано в таблице 3.5.
Во второй версии стандарта введены 4 новых профиля: Высококачественный (High Quality), LD (Low Delay)-профиль (с малой задержкой), Натуральный (Natural) и Межсетевой мобильный (Моbilе Audiо Intеrnеtwоrking).
Таблица 3.6 - Профили графических средств и описаний сцены в МРЕG-4
Средство | Профиль |
Графика | Простой 2D |
Полный 2D | |
Полный | |
Описание сцены | Звуковой |
Простой 2D | |
Полный 2D | |
Полный | |
Дескриптор объекта | Базовый |
Большое число возможных алгоритмов заставило ввести также три графических профиля, четыре профиля описаний сцены и один профиль дескрипторов объектов. Эти профили перечислены в таблице 3.6.