Обработка видеоизображений




Слово «видео» в современном толковании подразумевает привычное всем видео­изображение, которое мы видим на телевизионных экранах. Это изображение, в отличие от компьютерной графики, может получаться в результате видеосъем­ки естественных объектов. Чтобы подчеркнуть естественность происхождения, а также непредсказуемую подвижность изображения, ввели термин «живое ви­део». Растровая система отображения информации на экране монитора PC име­ет глубокие корни в телевидении, но объединить компьютерную графику с теле­визионным изображением оказывается непросто. Для понимания сложностей и путей решения этой задачи кратко поясним принципы передачи цветных теле­визионных изображений.

Как нам уже известно, в цветном мониторе экран сканируется одновременно тремя лучами базисных цветов и каждый луч модулируется входным сигналом. Также мы знаем, что отображение мелких элементов (большого количества пик­селов в строке) требует полосы сигнала в десятки мегагерц. В телевидении ши­рокополосные RGB-сигналы существуют только в пределах студии, передавать же их по радиоканалам в таком виде технически невозможно. Кроме того, теле­визионный сигнал должен быть совместим с черно-белыми телеприемниками. В телевидении сигналы трех первичных цветов R, G, В проходят через преобра­зователь координат, на выходе которого получают сигнал Y, несущий информа­цию о яркости точек (luminance), и два цветоразностных сигнала U и V, несущих информацию о цвете (chrominance) — о соотношениях яркостей красного и синего цвета относительно зеленого. Зеленый выбран основным, поскольку зре­ние людей к нему наиболее чувствительно. Далее, эти сигналы «путешествуют» по телевизионному тракту до телеприемника разными путями в зависимости от используемого вещательного стандарта. Сигнал Y всегда передается на основ­ной (несущей) частоте телевизионного канала, цветоразностные сигналы, специ­альным образом закодированные, передаются на поднесущей частоте канала. По­теря цветоразностного сигнала приведет к тому, что принятое изображение ока­жется черно-белым. Поскольку проблема полосы пропускания видеотракта сто­ит остро, во всех вещательных системах принята чересстрочная развертка. В пер­вой системе цветного телевещания — NTSC принята частота кадров 30 Гц (час­тота полей — 60 Гц), а количество строк — 525, из которых видимых — 480. При полосе канала яркости в 4,5 МГц в строке может быть различимо до 640 пиксе­лов (вот откуда формат 640 х 480). Однако для передачи цветоразностных сиг­налов используется поднесущая 3,58 МГц, и горизонтальное разрешение снижа­ется до 400-450 пикселов. Реально же домашний телеприемник обеспечивает примерно половину этого разрешения. Напомним, что это разрешение лишь по яркостному каналу. Цветоразностная информация (два сигнала) втискивается в подканал с поднесущей 3,58 МГц, да еще для экономии полосы, оставляемой яркостному каналу, после модуляции подавляют саму поднесущую и нижнюю часть спектра сигнала. Так что цветовые сигналы после таких преобразований, переда­чи по радиоканалу и обратного восстановления в телеприемнике поступят на входы видеоусилителей R, G, В с существенно урезанной, по сравнению даже с яркостным каналом, полосой частот. Видеосигнал, состоящий из яркостной со­ставляющей и поднесущей, модулированной цветоразностными сигналами, на­зывается композитным (Composite Video). Поскольку наибольшие потери ин­формации цветоразностного сигнала происходят при модуляции и демодуляции его поднесущей, лучшее качество передачи изображения даст сигнал, взятый сразу после цветоразностного преобразователя на приемной стороне. Интерфейс S-Video (Separate Video) использует раздельные сигнальные линии для яркостного кана­ла (Y) и модулированного сигнала цветности (С). Стандартный 4-контактный разъем S-Video типа mini-DIN используется как интерфейс высококачественных видеосистем, его синонимами являются и названия S-VHS и Y/C. Наивысшее качество передачи обеспечивает профессиональный (студийный) интерфейс YUV (professional video) на трех сигнальных линиях: здесь цветоразностные сигналы U и V передаются в немодулированном виде.

Кроме стандарта NTSС существуют еще два популярных в мире стандарта: PAL и SECAM.

В стандарте PAL фаза одного из цветоразностных сигналов (R-Y) меняется от строки к строке, что и дало название этому методу (Phase Alternating Line). Та­кое решение позволило повысить стабильность декодирования. Для увеличения горизонтального разрешения поднесущая частота цветоразностного сигнала по­вышена до 4,43 МГц. Частота кадров — 25 Гц (при частоте полей 50 Гц), количе­ство строк — 625. Стандарт PAL обеспечивает разрешение 800 х 600. В варианте PAL-M принят формат кадра NTSC (60 Гц и 525 строк), а в PAL-N при 625 стро­ках (50 Гц) вернулись к поднесущей 3,58 МГц.

В системе SECAM вместо квадратурной модуляции поднесущей при­менены две поднесущие цветоразностных сигналов с частотной модуляцией. Ча­стота кадров — 25 Гц (при частоте полей 50 Гц), количество строк — 625.

Говоря о телевизионных стандартах, не следует забывать и о канале звуково­го сопровождения. Во всех этих системах для звука используется частотная мо­дуляция дополнительной поднесущей частоты 6,5 МГц для SECAM; 5,5 МГц для PAL (но иногда и 6,5 МГц); 4,5 МГц для NTSC и PAL-M; может встречаться и 6 МГц.

Все перечисленные системы в цветном режиме между собой несовместимы, хотя для них и существуют устройства-конверторы. Устройства обработки видеосигналов в PC могут поддерживать все системы или только некоторые из них, на что следует обращать внимание при их приобретении.

Обсудим возможные точки соприкосновения компьютерной графики и теле­визионного видеосигнала.

Вывод компьютерной графики на экран обычного телевизора представляет интерес как средство презентаций: телевизоры с большим экраном применяются достаточно широко и имеют умеренную цену, чего не скажешь о больших мони­торах. Кроме того, транслировать один и тот же сигнал на несколько телевизо­ров проще, чем на несколько компьютерных мониторов. Ряд моделей современ­ных графических карт имеют выход телевизионного сигнала, причем независи­мый от выхода на основной монитор. Есть и преобразователи форматов (напри­мер, конвертор VGA-TV) в виде отдельных внешних устройств со стандартным интерфейсом компьютерного монитора на входе и каким-либо телевизионным сигналом на выходе. В простейшем варианте конвертор только преобразует сиг­налы из RGB в один из интерфейсов телеприемника, но при этом требуется ус­тановка разрешения и частот синхронизации графического адаптера, совпадаю­щих со стандартом телеприемника. Для пользователя PC эти ограничения мало­приятны, а иногда и невыполнимы. Более сложные конверторы имеют собствен­ную буферную память, которая заполняется вновь оцифрованным видеосигна­лом, снятым с выхода графического адаптера. На телевизионный выход инфор­мация из буфера выдается уже с телевизионной частотой. Буфер может хранить одну, несколько или все строки экрана. От этого зависят ограничения на режим разрешения и соотношения частот регенерации графического адаптера и телеви­зионного монитора (в последнем случае они вообще могут быть несвязанными). Естественно, эти варианты сильно отличаются по сложности и цене (конвертор с полноэкранным буфером самый дорогой). Однако когда графический адаптер выводит движущееся изображение, смена которого привязана к кадровой синх­ронизации, при несовпадении кадровых частот на телевизионном экране движе­ние будет искажаться. Общей проблемой конверторов является необходимость борьбы с мерцанием (flickering): поскольку в телеприемниках используется че­ресстрочная развертка, горизонтальная полоса шириной в пиксел будет отобра­жаться с частотой 25 или 30 Гц, что улавливается глазом. Возможны и варианты внутренних адаптеров (карт расширения), подключаемых к шине расширения PC и внутреннему разъему графической карты (VFC или VAFC). Некоторые модели конверторов позволяют накладывать графическое изображение на внешний видеосигнал (например, для создания титров). Ввиду ограниченной гори­зонтальной разрешающей способности телеприемников (полоса пропускания шире 5 МГц для телевизора как такового бессмысленна), возможность замены монитора телевизором для регулярной работы сомнительна. В стандарте NTS С обеспечивается разрешение 640 х 480, в PAL и SEC AM — 800 х 600. Однако та­кое разрешение реально достижимо только при использовании интерфейса S-Video. Композитный сигнал, как было сказано выше, не обеспечивает столь высокого разрешения. Выход телевизионного сигнала имели адаптеры CGA и EGA, с приходом VGA этот интерфейс на графических картах применять пере­стали. Однако на новом витке развития техники об интерфейсе с телевизион­ным приемником снова вспомнили. Microsoft рекомендует устанавливать на но­вых графических картах кроме стандартного интерфейса VGA (RGB-Analog) выход композитного сигнала и S-Video. Более того, рекомендуется предусмот­реть возможность одновременной работы VGA-монитора и TV-приемника, что не так-то просто обеспечить из-за различия параметров синхронизации.

Гораздо чаще используют обратное «скрещивание» — вывод видеоизображе­ния на экран компьютерного монитора. Видеоизображение выводится в окно, занимающее весь экран или его часть. Поскольку вывод видео перекрывает часть графического изображения, такой способ вывода называют видеооверлеем (Video Overlay), а платы, обеспечивающие данный режим, называют видеооверлейными (overlay board). Эти платы позволяют изменять размер окна видео так же, как и размер любого окна в Windows. В оверлейной плате для видеоизображения име­ется специальный «слой» видеопамяти, независимой от видеобуфера графичес­кого адаптера. В этом слое содержится оцифрованное растровое отображение каждого кадра видеосигнала. Поскольку для видеосигнала принято цветовое про­странство в координатах Y-U-V, в этом слое памяти пикселы также отображают­ся в этом пространстве, а не в R-G-B, свойственном графическим адаптерам. В такой системе движущееся видеоизображение, видимое на экране монитора, существует лишь в оверлейном буфере, но никогда не попадает в видеопамять графического адаптера и не передается ни по каким внутренним цифровым ши­нам компьютера. В видеопамяти графического адаптера «расчищается» окно, че­рез которое «выглядывает» видеоизображение из оверлейного буфера. Некоторый цвет (комбинация бит RGB) принимается за прозрачный. Оверлейная логи­ка сравнивает цвет очередного пиксела графического буфера с этим прозрач­ным, и если он совпадает, вместо данного пиксела выводится соответствующий пиксел видеооверлея. Если цвет не совпадает с прозрачным, то выводится пик­сел из графического буфера. Таким образом, имея доступ к пикселам графичес­кого буфера, можно на видеоизображение накладывать графику для организа­ции видеоэффектов или вывода в видеоокне «всплывающих» (PopUp) меню. На­ложение производится на уровне потока бит сканируемых пикселов, который может передаваться в оверлейную плату через разъем Feature Connector (см. ни­же). Оверлейная плата обычно имеет несколько входов для источников аналого­вого видеосигнала и программно-управляемые средства выбора одного из них. В составе такого устройства обычно есть и фрейм-граббер (Frame Grabber) — средство захвата видеокадра. Его другое название — Video Capture. По команде оператора движущееся изображение может быть мгновенно зафиксировано в оверлейном буфере, после чего захваченный кадр может быть записан на диск в каком-либо графическом формате для последующей обработки и использова­ния. Более совершенные устройства позволяют записывать в реальном времени последовательность видеокадров, выполняя их компрессию методами M-JPEG, DVI или INDEO (MPEG-кодирование требует слишком больших ресурсов для выполнения преобразования в реальном времени), но об этом чуть позже.

Фрейм-граббер может и не иметь отношения к видеооверлею, а быть отдель­ным устройством, подключаемым к источнику видеосигнала и какому-либо ин­терфейсу компьютера. В этом случае видеоизображение наблюдается уже не на мониторе компьютера, а на обычном телевизоре, подключенном к тому же ис­точнику видеосигнала или фрейм-грабберу. По команде оператора требуемый кадр фиксируется в буферной памяти фрейм-граббера, откуда по интерфейсу посту­пает в компьютер для обработки или(и) хранения.

TV-тюнер — устройство приема видеосигналов с радиочастотного входа (ан­тенны), в сочетании с оверлейной платой позволяет просматривать телепрограм­мы на обычном мониторе компьютера. Тюнер может поддерживать стандарты цветопередачи PAL, SECAM и NTSC, но из-за несовпадения стандартов на промежуточную частоту звукового сопровождения некоторые карты не принимают звуковое сопровождение отечественных телеканалов.

Теперь посмотрим, во что «выльется» попытка передачи видеоизображения в цифровом виде, естественном для графической системы компьютера (Bitmap). Пусть разрешение видеоэкрана составит 640 х 480 — максимально возможное для телевизионного изображения NTS С. Поскольку аналоговый телевизионный сиг­нал позволяет передавать в принципе неограниченное число цветов, примем глу­бину цвета True Color — 24 бита на пиксел. Тогда одному кадру изображения будет соответствовать битовый образ объемом 640 х 480 х 24 = 7 372 800 бит или около 7 Мбит на кадр. В телевидении полные кадры сменяются с частотой 25 Гц (30 Гц в NTSC), так что для непосредственной передачи телевизионного изображе­ния в формате Bitmap требуется обеспечить поток данных в 7 х 25 = 175 Мбит/с, или около 22 Мбайт/с. О том, чтобы записывать такой поток данных даже на самый быстрый винчестер, раньше не было и речи, но современные диски уже могут его выдержать (см. главу 7). Но этот поток заполняет 1 Гбайт диска всего за 44 секунды. Конечно, если пожертвовать количеством цветов и «опуститься», например, до режима High Color (16 бит на пиксел), то требуемый поток умень­шится до 116 Мбит/с. Но и такой поток слишком велик. Выходом может быть только сжатие передаваемой информации,

Выше уже отмечалось, что формат Bitmap является довольно расточитель­ным способом описания изображений. Соседние (по вертикали и горизонтали) элементы реального изображения обычно между собой сильно взаимосвязаны (коррелированны), поэтому имеются богатые возможности сжатия описания. Иллюстрация этому — очень большой коэффициент сжатия BMP-файлов лю­бым архиватором. Если сжатие файлов данных при архивации обязательно тре­бует возможности точного восстановления исходных данных при распаковке, то при сжатии изображений в большинстве случаев можно позволить некоторые вольности, когда восстановленное изображение не совсем точно соответствует оригиналу. И наконец, соседние кадры движущегося изображения между собой в большинстве случаев тоже сильно связаны, что наводит на мысль о примене­нии дифференциального описания кадров. Все эти рассуждения подводят нас к пониманию возможностей сжатия видеоинформации и принципов действия ко­деков — компрессоров-декомпрессоров видеосигнала. Как и в случае программ­ного сжатия и восстановления данных, задача компрессии оказывается сложнее задачи восстановления (легко заметить, что распаковка файлов, например, архи­ватором ARJ, происходит гораздо быстрее упаковки). Процедура сжатия может выполняться как одноступенчатым, так и двухступенчатым способом. В первом случае сжатие выполняется одновременно с записью в реальном масштабе вре­мени. Во втором случае поток несжатых данных интенсивностью в несколько десятков мегабайт в секунду записывается на специальный (очень большой и очень быстрый) диск. По окончании записи фрагмента выполняется его сжатие, которое может занимать на порядок больше времени, чем сама запись. Декомп­рессия, естественно, представляет интерес лишь в том случае, если она выполня­ется в реальном масштабе времени (к счастью, она и реализуется проще). Ряд кодеков позволяет осуществлять декомпрессию в реальном времени чисто про­граммными способами, используя стандартный графический адаптер SVGA. Од­нако программная декомпрессия сильно загружает процессор, что неблагоприят­но сказывается на многозадачном использовании компьютера. Ряд современных дисплейных адаптеров имеют специальные аппаратные средства декомпрессии, разгружающие центральный процессор. На долю процессора остается лишь орга­низация доставки сжатого потока данных к плате адаптера.

Сжатие движущихся изображений включает впутрикадровое (intraframe com­pression) и межкадровое (interframe compression) сжатие. Для внутри-кадрового сжатия используются методы, применяемые для сжатия неподвижных изобра­жений. В межкадровом сжатии применяется система ключевых кадров (key frame), содержащих полную информацию о кадре, и дельта-кадров (delta frame), содер­жащих информацию о последовательных изменениях кадров относительно клю­чевых. Благодаря корреляции соседних кадров дельта-кадры в общем случае не­сут гораздо меньше информации, чем ключевые, и, следовательно, поток их дан­ных не так интенсивен. Периодическое вкрапление ключевых кадров позволяет избежать накопления ошибки в изображении, а также начинать прием потока в любой момент (дождавшись ближайшего ключевого кадра).

При съемке различных сюжетов межкадровая корреляция, конечно же, будет существенно варьироваться. Поэтому, чтобы оценить качество работы кодека, применяют, например, сюжеты типа «говорящие головы» (Talking heads) с высо­кой степенью корреляции кадров и более сложные полнодвижущиеся изображе­ния (Actions) — например, карусель, где все элементы перемещаются. Оценка качества ведется как по объективным показателем, так и по субъективному вос­приятию. Объективными показателями является максимальная частота кадров (Frame Rate), которая обеспечивается без отбрасывания кадров, и процент от­брасываемых кадров (Drop Frames) при обработке потока со стандартной часто­той кадров. Эти показатели характеризует производительность декомпрессора, которая может оказаться и недостаточной для обработки потока данных без потерь. Интересен также и коэффициент загрузки центрального процессора (CPU Utilization) при отработке стандартного потока, по которому можно судить о воз­можности исполнения других задач во время воспроизведения видео.

В процессе декомпрессии может потребоваться масштабирование кадров, для того чтобы вписать изображение в окно заданного размера. В простейшем слу­чае декомпрессия производится в масштабе 1:1, при этом видеоизображение обыч­но занимает лишь часть экрана. Примитивное масштабирование достигается дуб­лированием пиксела — один пиксел видео копируется в несколько (например, 4) смежных пикселов графического экрана. Однако при этом качество изображе­ния заметно падает — крупные «кирпичики», из которых строится изображение, с небольшого расстояния выглядят плохо. Более тонкий механизм масштабиро­вания выполняет интерполяцию цветов пикселов, при этом качество изображе­ния заметно улучшается. Однако такое масштабирование уже требует значитель­ных затрат вычислительных ресурсов, и если их недостаточно, то вывод видео­изображения в окно большого размера будет сопровождаться потерями кадров и, возможно, перебоями звукового сопровождения. Так что, говоря о качестве вывода видео, следует всегда оговаривать масштаб или размер видеоэкрана.

Для сжатия изображений применяются различные кодеки.

· JPEG (Joint Photographic Expert Group) — метод сжатия неподвижных изоб­ражений, основанный на одновременной обработке информации матрицы пикселов (например, 8 х 8) в пространстве Y-U-V с приоритетом сохране­ния яркостной информации. Метод почти универсален: он позволяет обес­печивать и максимальную степень сжатия, правда, при этом информация восстанавливается с некоторыми потерями, и обеспечивать сжатие без по­терь, но, конечно, в меньшей степени. Кроме того, возможен послойный прием изображения, когда сначала приходит грубое описание всей кар­тинки, затем следуют постепенные уточнения (утончения) деталей. Такая передача представляет ценность при использовании каналов связи с огра­ниченной производительностью, например в Интернете: быстро получив общий вид, можно отказаться от приема полного описания изображения, если оно не заинтересовало получателя. Конечно, все достоинства JPEG не могут использоваться одновременно — чем-то приходится жертвовать. Степень сжатия зависит от характера изображения — лучше всего сжима­ется цветное изображение, несколько хуже — полутоновое серое. Черно-белое изображение для JPEG должно представляться в полутоновом фор­мате, что, конечно, снижает эффективность его сжатия.

· M-JPEG (Motion JPEG) — метод сжатия движущихся изображений. Суть этого метода заключается в том, что каждый кадр обрабатывается как от­дельное статическое изображение, то есть выполняется только внутрикад-ровое сжатие. M-JPEG не получил широкого распространения из-за боль­ших затрат времени на компрессию и декомпрессию.

· DVI (Digital Video Interactive) — система аппаратного сжатия движущих­ся видеоизображений с коэффициентом сжатия до 160:1 и записи звуко­вого сопровождения по методу ADPCM.

· Indeo (INtel viDEO) — одноступенчатый кодек на базе набора микросхем 182750, развитие системы DVI. Позволяет воспроизводить видеозаписи и с программным декодированием (необходим PC не ниже 486SX-25, SVGA 256 цветов и звуковая карта с ADPCM для звукового сопровождения).

· Cinepak — программный кодек для воспроизведения «живого» видео в окне 320 х 240 пикселов.

· MPEG - ряд кодеков (MPEG-1, MPEG-2, MPEG-4, MPEG-7...) для пере­дачи аудио-видеоинформации, каждый из которых соответствует опреде­ленному этапу развития цифровых технологий. Эти кодеки стали обще­принятыми и заслуживают более подробного описания.

Видеосигнал в сжатом формате может быть сохранен на вполне рядовом но­сителе информации (винчестер, CD) и воспроизведен с него на мониторе компь­ютера. С этой цифровой записью могут выполняться любые операции нелиней­ного монтажа (монтажа с произвольным доступом к кадрам). Возможности та­кого монтажа определяются программным обеспечением и, по сути, безгранич­ны (конечно, они определяются и производительностью компьютера — если мон­таж одной минуты потребует, скажем, недели работы, то мало кто им будет пользоваться).

Для обмена видеоданными с другими устройствами сжатый поток может быть передан, например, по шине Fire Wire (см. главу 14) или через средства телеком­муникаций (см. главу 10). Если компьютер оборудован телекамерой со средства­ми компрессии и передачи изображений по телекоммуникационным каналам, то появляется возможность организации видеотелефона и даже видеоконференций.

 

Стандарты MPEG

Разработкой кодеков, предназначенных для работы (по крайней мере, декомп­рессии) в реальном масштабе времени, занимается MPEG (Motion Picture Expert Group — группа экспертов в области движущихся изображений). Поскольку ви­део без звука «живым» представить трудно, MPEG занимается и аудиокодека­ми. Кодеки MPEG работают в пространстве Y-U-V, причем яркостная информа­ция обрабатывается с большим разрешением, чем цветовая. В сжатом потоке дан­ных присутствуют кадры нескольких типов:

· I (intra)-кадры — ключевые кадры, кодированные без ссылок на другие (то есть содержащие полное описание статического изображения).

· Р (predicted) — кадры содержат описание различий текущего кадра с пре­дыдущим.

· В (bi-directional) — кадры являются двунаправленными: они ссылаются и на кадр вперед, и на кадр назад.

Наличие двунаправленных кадров подразумевает, что декодер должен иметь буфер, по крайней мере, на три принятых кадра, а изображение будет выводить­ся с некоторым отставанием от входного потока. Для того чтобы кодек мог быс­тро включиться в работу с любого места потока, I-кадры должны включаться в поток регулярно (в MPEG-1 — не реже, чем через 0,4 с).

MPEG-1 — стандарт ISO/IEC 11172, принятый в 1992 году. Полное название — «Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1,5 MBit/s» — раскрывает его суть: кодек предназначен для записи и воспроизведения движущихся изображений и связанного с ними аудиосопро-вождения на цифровом носителе с потоком данных до 1,5 Мбит/с. При этом обес­печивается качество изображения на уровне кассетного видеомагнитофона VHS (Video Home System) со стереофоническим звуковым сопровождением. Стан­дарт состоит из 5 частей, описывающих систему, видео, аудио, методику тести­рования на соответствие и программы кодера и декодера на языке С. Для полу­чения столь низкой скорости потока из исходного видеопотока берется лишь одно поле (полукадр), а в каждой строке — только половина пикселов, что дает формат кадра 352x240 пикселов с прогрессивной разверткой, 30 кадров в секун­ду. Поток этих кадров и подлежит сжатию. Увеличение размера декодированно­го изображения до полного экрана особого смысла не имеет, поскольку может выполняться только масштабированием (размножением пикселов), правда, в бо­лее сложных реализациях декодера можно улучшить качество изображения, при­меняя методы интерполяции. Аудиопоток по сравнению с РСМ сжимается при­мерно в 6 раз (типовая скорость 256 Кбит/с). Декодер MPEG-1 содержит де-мультиплексор, разделяющий аудио- и видеопотоки, и раздельные декодеры для них. Скорость потока данных позволяет использовать в качестве носителя ви­деоинформации обыкновенный CD-ROM, поэтому MPEG-1 применяется в дис­ках CD-i и VideoCD (VCD). Однако декомпрессия требовала большой (по тем временам) мощности процессора (Pentium 133), из-за чего диски CD-i и VCD без специальной платы аппаратного декодера маломощные компьютеры воспро­изводить не могли.

MPEG-2 (ISO/IEC 13818) — кодек для высококачественной передачи изоб­ражений, аудиоинформации и данных при потоке 2-80 Мбит/с, обеспечиваю­щий несколько уровней качества (табл. 1). Основной уровень (720x480, 30 кадров/с) обеспечивает качество на уровне телевещания, высокие уровни ис­пользуются в профессиональной видеозаписи. Стандарт предусматривает одно­временную передачу множества TV-каналов с возможностью шифрования для ограничения доступа к информации и защиты прав собственности на содержи­мое потоков. Первые 5 частей стандарта аналогичны MPEG-1, но с новым на­полнением. Аудиокодек MPEG-2 представляет собой многоканальное расшире­ние аудиокодека MPEG-1, что обеспечивает их совместимость по первым двум каналам. В аудиокодеке MPEG-2 имеются 2 стереоканала (фронт и тыл), обес­печивающих объемное звучание (Surround), и один низкочастотный с полосой до 100 Гц. Кроме совместимого с MPEG-1, в MPEG-2 входит и «продвинутый» аудиокодек AAC (Advanced Audio Codec), используемый в профессиональной аудиотехнике. Аудеокодек MPEG-1/MPEG-2 стал жить самостоятельной жиз­нью под именем МРЗ (MPEG-1 Layer 3), иногда ошибочно называ­емый MPEG-3 (такого стандарта нет). То, что должно было стать MPEG-3, вы­лилось в высший уровень MPEG-2. Этот уровень обеспечивает качество телевидения высокой четкости ТВЧ (HDTV — High Definition TV).

 

Таблица 1. Уровни качества MPEG-2

Уровень Размер изображения Максимальный поток данных, Мбит/с при частоте 30 кадров/с
Low (низкий) 352 х 240  
Main (основной) 720 х 480  
High-1440 (высокий) 1440x1152  
High (высокий) 1920 х 1080  

 

Модель взаимодействия компонентов воспроизводящих систем MPEG-1 и MPEG-2 довольно проста — данные от источника через средства доставки по­ступают на вход демультиплексора, где разделяются на видео и аудиопотоки, обрабатываемые своими декодерами. Информационный поток MPEG-1 сугубо однонаправленный; в MPEG-2 добавляется двунаправленный канал взаимодей­ствия получателя информации с источником данных (сервером вещания) через средства доставки, что обеспечивает интерактивность в смысле выбора переда­ваемых программ, а также адаптацию передаваемого потока к качеству канала передачи.

MPEG-4 — стандарт, ориентированный на интерактивное использование муль­тимедиа и сетевых коммуникаций. По сравнению с предыдущими, MPEG-4 уст­роен гораздо сложнее — аудио-видеоинформация, представляемая конечному потребителю, собирается из различных аудиовизуальных объектов (AVO, Audio-Visual Objects). Эти объекты отображаются на сцене, представляемой конечно­му потребителю (наблюдателю-слушателю). Сцена представляется дисплеем и многоканальной аудиосистемой. Исходная композиция (расположение объек­тов на сцене), заданная создателем воспроизводимого произведения, может в ши­роких пределах изменяться пользователем. Объекты, представляемые на сцене, могут быть как естественными, так и синтетическими. Между объектами уста­навливаются определенные связи. Интерактивность позволяет управлять как представлением сцены (например, менять ракурс), так и композицией («сбор­кой», содержанием и поведением объектов на сцене) и, как и в MPEG-2, взаимо­действовать с источником данных через средства доставки.

Естественные аудиообъекты — это каналы передаваемого аудиосигнала, сжа­того в зависимости от потребностей в качестве и доступной полосы пропускания канала передачи. Уровень качества может быть от телефонного до высокого (ка­налы с виртуальной скоростью 2-64 Кбит/с). Для каждого уровня качества и занимаемой полосы используется свой метод компрессии/декомпрессии. Син­тетические аудиообъекты образуются из структурированных потоков входных данных. Декодер TTS (Text to Speech) синтезирует речь по потоку текстовых данных, формируя управляющие данные для анимации движения губ. Декодер имеет многонациональную языковую поддержку. Он позволяет управлять темб­ром и громкостью, делать паузы, «проматывать» вперед и назад. Музыкальным аналогом TTS является интерфейс MIDI, но в MPEG-4 может использоваться и более мощный и точный метод синтеза музыки Score Driven Syntesis. Поток для синтеза музыки содержит команды, описывающие звуковые примитивы, гене­рируемые с помощью сигнальных процессоров. Таким образом передаются пото­ки для всех инструментов оркестра и может быть синтезировано их совместное звучание, которое может оживляться такими деталями, как шум шагов в зале или звук открываемой двери. К аудиообъектам могут быть приложены различ­ные эффекты; аудиообъекты могут привязываться к визуальным объектам и по­зиционироваться в любой точке сцены (объемной).

Визуальные естественные объекты могут быть текстурами, изображениями и видео. Текстуры предназначены для наложения на каркасные модели, 2D или 3D. Изображения могут просто помещаться в любое место сцены. Видео подра­зумевает «живое» изображение, но оно может быть и не полноэкранным и не прямоугольным (например, движущийся человек на прозрачном фоне). Визуаль­ные синтетические объекты представляют собой элементы компьютерной гра­фики, получаемые разными способами в векторном или растровом виде. Это мо­гут быть и 2D или 3D каркасные модели, на которые могут быть наложены тек­стуры (естественные и синтетические). Для повышения качества моделирова­ния живых объектов в MPEG-4 разработана специальная система параметризо­ванного описания человеческой головы, способной изображать различные эмо­ции, а также воспроизводить движение губ при разговоре. Движение губ может быть связано с воспроизводимым аудиосигналом, привязанным к этому объекту (голове). На модель головы может быть наложена текстура, полученная из изоб­ражения лица конкретного человека. Разрабатывается также и специализирован­ная модель человеческого тела.

Для иллюстрации можно представить, к примеру, такую сцену. В синтетичес­кой комнате (трехмерная модель) расположен синтетический диктор (модель), лицо которого является текстурой, сделанной из портрета известного человека. Этот диктор «читает» текст (подсунутый ему пользователем или хакером через сеть), ходит по комнате, по «просьбе» пользователя может остановиться и помолчать или же повторить сказанное. Вся эта синтетика в сочетании с интерактивностью ограничивается малым объемом передаваемых данных — достаточно раз передать описание сцены, диктора и текстуру его лица, после чего требуется передача лишь текста и информации, управляющей движением моделей на сцене.

Визуальная часть MPEG-4 предоставляет инструменты и алгоритмы для эф­фективной компрессии видео и изображений, текстур для наложения на 2D- и ЗD-сетки (каркасы), самих сеток, потоков геометрических данных, «оживляю­щих» сетки. Также имеются средства для произвольного доступа ко всем типам объектов, манипулирования изображениями и видеопотоками. Способы кодиро­вания и масштабирования изображений, текстур и видео зависят от типа содер­жимого. Ядром средств кодирования визуальных объектов является VLBV (Very Low Bit-rate Video) — видео с очень низкой скоростью потока (5-64 Кбит/с), позволяющей передавать маленькие кадры (176 х 144 пиксела) с темпом 10-15 кадров/с, устойчиво по отношению к ошибкам передачи. Вокруг этого ядра строится интерфейс с высокой скоростью передачи и расширения функци­ональности, позволяющих индивидуально кодировать объекты сцены, что и обес­печивает интерактивность. Полноэкранное изображение приемлемого качества требует скорости порядка 600 Кбит/с. Для программного декодирования (в ре­альном времени) требуется как минимум Pentium II-300. Компрессия в реаль­ном времени может быть реализована, например, на двухпроцессорном компью­тере Pentium II-400. В некоторые современные видеокарты встраивают аппаратные средства декомпрессии MPEG-4; средства синтеза визуальных объектов ос­нованы на вполне уже обычных функциях 2D- и ЗО-акселераторов.

Широкое распространение MPEG-4 во все мультимедийные отрасли может сильно изменить взгляды на способы создания и использования мультимедийной продукции, но это тема отдельного обсуждения вне рамок данной книги. В MPEG-4 предусматриваются средства контроля за соблюдением прав собствен­ности на произведения, направленные на обеспечение возможности платного рас­пространения, защиту авторских прав и т. п. При необходимости возможности изменения содержимого при воспроизведении тоже должны быть ограничены, чтобы избежать искажения смысла произведения.

На этом история MPEG не заканчивается: есть расширения MPEG-4 с ис­пользованием языка Java, а также MPEG-7 — стандарт описания мультимедийных объектов, обеспечивающий их эффективный поиск.

В персональном компьютере могут присутствовать специальные компоненты для работы с MPEG:

MPEG-плеер — декодер MPEG-1, обеспечивающий воспроизведение с ком­пакт-дисков форматов MPEG-1 (CD-I, VideoCD). Аппаратный декодер является широко распространенным дополнением графического адаптера. В отличие от программных MPEG-декомпрессоров, он обеспечивает высокое качество воспро­изведения с невысокой загрузкой процессора. В состав MPEG-плейера должен входить и аудиодекодер, при этом на графической плате с аппаратным декоде­ром появляется немного неожиданный дополнительный разъем аудиовыхода.

DVD-плеер — декодер MPEG-2, аппаратный или программный, позволяющий воспроизводить видеозаписи с DVD-Video и Super VideoCD. Для программного декодирования требуется как минимум компьютер с процессором Pentium II-266, для аппаратного достаточно Pentium-133.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-12-28 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: