Электронная библиотека » Оксана Буковецкая » » онлайн чтение - страница 4


  • Текст добавлен: 14 ноября 2013, 04:34


Автор книги: Оксана Буковецкая


Жанр: Программы, Компьютеры


сообщить о неприемлемом содержимом

Текущая страница: 4 (всего у книги 15 страниц) [доступный отрывок для чтения: 4 страниц]

Шрифт:
- 100% +
Стандарты дискретизации видеосигналов

В большинстве форматов цифрового видео используется компонентная палитра. Весьма популярен стандарт 4:2:2 (YUV2). Речь идет о раздельной оцифровке значений Y, U и V-каналов. Для цифрового кодирования в качестве базовой принята частота 3,375 МГц. Это значение кратно частотам основных стандартов телевизионных изображений: 625/60 и 525/50. Частота дискретизации для конкретного канала вычисляется как произведение базовой частоты на соответствующий коэффициент: 4 для канала Y и 2 для цветоразностных каналов. Таким образом, частота оцифровки яркостного сигнала равна 13,5 МГц. Эта частота соответствует рекомендациям международного стандарта ITU (бывшего CCIR) 601. Схема дискретизации при данной частоте приведена на рис. 3.4.

Рис. 3.4. Дискретизация по стандарту 4:2:2 (YUV2)


Отсюда следует, что каждый пиксел строки имеет собственное значение яркости, но значения каждого из цветоразностных компонентов одинаковы для пары соседних пикселов. При 576 активных строках на кадр с сохранением стандартного для телевидения соотношения ширины изображения к высоте 4:3 получаем 720 активных элементов в строке для сигнала яркости и 360 – для цветоразностных сигналов. (Нарушение соотношения 4:3 приводит к искажению изображения, так что квадратные элементы становятся прямоугольными.) Это исходный, наиболее универсальный формат, такие кадры как раз и поступают на вход систем компрессии. Яркостный сигнал кодируется восемью битами, оба цветоразностных – по 8 бит на пару точек. В результате для описания каждой точки используется 16 бит, однако определяемое таким способом кодирования цветовое пространство соответствует 24-битной палитре – 16 миллионов цветов, где каждая отдельная точка может занимать любое положение в пределах цветового охвата данной палитры. Поэтому при перекодировании из YUV 4:2:2 в 16-битный RGB происходят необратимые потери информации.

Если в процессе захвата или обработки изображения производится перекодирование из одной палитры в другую, для предсказания возможных потерь недостаточно формальной информации о числе бит на точку. Необходимо знать способ кодирования. По возможности старайтесь избегать многократного перекодирования, поскольку вероятность потерь и искажений информации при этом возрастает.

Для цифрового представления существенна величина потока информации (скорости передачи данных, необходимой для записи информации без потерь). Она является произведением глубины квантования на частоту дискретизации. То есть для стандарта 4:2:2 при уровне квантования 10 бит (распространенном для современной техники) имеем:


Чy х Гу + Чu х Гu + Чv х Гv = 10 бит х (13,5 МГц + 6,75 МГц + 6,75 МГц) = 270 Мбит/с или 33,75 Мбайт/с (где Ч – частота, Г – глубина оцифровки).


Поток достаточно большой, но только при таких характеристиках сохраняется студийное качество изображения.

Встречаются и другие значения частоты дискретизации: для передачи данных непосредственно в RGB-палитре (в измерительной технике или особо точной записывающей аппаратуре) 4:4:4. Этот способ кодирования совсем не искажает изображение, но применяется довольно редко в связи с резким увеличением потока информации. При кодировании дополнительных данных (например, альфа-канала, задающего прозрачные области) встречается представление 4:4:4:4. Это дает поток 540 Мбит/с.

Гораздо чаще встречаются стандарты дискретизации с уменьшенным пространственным разрешением для цветоразностных сигналов: 4:1:1 (BTYUV) и 4:2:0 (YUV12). Оба способа кодирования ухудшают качества кадра и обычно применяются вместе с достаточно высоким уровнем компрессии в форматах, когда компактность оказывается важнее качества.

В первом случае имеем дискретизацию яркостного сигнала с частотой 13,5 МГц, а цветоразностных сигналов – 3,375 Мгц, то есть цветоразностные компоненты общие уже не для двух, а для четырех пикселов.

Стандарт 4:2:0 (рис. 3.5) имеет тот же суммарный поток информации, но для цветоразностных сигналов в два раза снижено разрешение как по горизонтали (360 отсчетов в строке), так и по горизонтали (288 строк). В этом случае имеем не пары, а квадраты точек, для которых приравниваются значения цветоразностных сигналов: две точки в данной строке и две точки в соседней. Ноль в записи, естественно, некоторая условность, вторая цветоразностная компонента никуда не исчезает. Стандарт 4:2:0 используется в бытовых форматах DV.

Рис. 3.5. Кодирование по стандарту 4:2:0


Еще сильнее уменьшает поток информации (и качество изображения) формат CIF, при котором для яркостной компоненты оцифровывается половина строк (288), горизонтальное разрешение составляет 352 элемента, а разрешение цветоразностных компонент по обоим направлениям в два раз ниже. Такое кодирование используется там, где необходимо очень сильно уменьшить поток данных, например при передаче изображения по телефонным сетям.

Если изображение необходимо копировать без потери качества, надо применять дискретизацию не ниже 4:2:2. Даже если запись производилась с худшими характеристиками, копирование по мере возможности стоит производить на технике именно такого класса.

Для форматов, использующих композитный сигнал, применяется частота дискретизации, совпадающая с частотой четвертой гармоники цветовой несущей: 17,73 МГц для PAL и 14,32 МГц для NTSC.

Сжатие

Существует два принципиально различных варианта сжатия данных: с потерей и без потери информации. Первый вариант используется, например, при архивации данных и основан на том, что информацию можно записывать более или менее «экономным» способом, подобно тому как один и тот же текст можно просто записать, а можно застенографировать. Во втором случае запись, конечно, будет гораздо компактнее. При этом информация не теряется: при расшифровке стенограммы мы получим исходный текст.

Способов сжатия без потерь немного. Один из них основан на частотном анализе компрессируемых данных. В файле различные значения байтов встречаются, естественно, с неодинаковой частотой. Можно перекодировать «текст», поставив в соответствие часто встречающимся значениям байтов более короткие битовые последовательности, а редким значениям – более длинные коды. Для файлов, где существует значительная разница в частоте значений байтов, такой механизм сжатия довольно эффективен. В усовершенствованном варианте, называемом «арифметическим кодированием», анализируется не только частота отдельных значений, но и вероятность их появления в определенном «контексте» (в зависимости от соседних значений).

В другом случае принцип кодирования близок к уже упоминавшейся стенографии: определенные последовательности значений заменяются кодами, из который составляется «словарь». При этом, если в процессе кодирования встречается комбинация значений, являющаяся расширенным вариантом уже зарегистрированной последовательности, она добавляется в словарь. Объем словаря, разумеется, ограничен. Подобным образом создаются, например, специальные компрессированные TIFF-файлы.

Степень сжатия сильно зависит от типа и длины файла. В любом случае к данным добавляется информация, необходимая для декомпрессии (восстановления исходных данных). Поэтому, если данные в файле плохо сжимаются при использовании избранного алгоритма, размер файла может даже возрасти.

Даже в удачном случае уровень компрессии без потери информации обычно не очень высок. Сжатие в два раза – уже победа. Поэтому обычно для видео используют сжатие с потерей качества, отбрасывая информацию, якобы неразличимую глазом. Естественно, чем выше уровень такого сжатия, тем больше искажения. Из «неподвижных» графических компьютерных форматов такое сжатие применяется, например, в формате JPEG. В компьютерном видеоформате AVI (Audio Video Interleave – чередование аудио и видео) используется Motion JPEG.

Методы сжатия кадров основаны на дискретно-косинусном преобразовании. Картинка подразделяется на квадратные блоки, обычно 8х8 пикселов. В пределах каждого блока значения яркости и цветности точек переводятся в некоторые частотные коэффициенты. На этом этапе потерь информации не происходит. Затем производится квантование с переменным интервалом, то есть наибольшее число уровней квантования (значений, до которых производится округление) приходится на низкочастотную область, описывающую крупные объекты. В высокочастотной области, ответственной за детали изображения, происходит грубое округление значений до небольшого числа разрешенных уровней. Внешне результат выглядит как уменьшение разрешения, иногда сопровождающееся появлением артефактов. В несколько утрированном виде последствия такого сжатия можно проиллюстрировать при помощи обычного JPEG с высоким уровнем сжатия. Обратите внимание на рис. 3.6. Исходная надпись создана в CorelDraw с использованием градиентной заливки из черного в белый. Вверху – изображение импортировано в формат TIFF с разрешение 300 dpi и стандартным сглаживанием, снизу – то же изображение преобразовано в формат JPEG с максимальным уровнем сжатия. Разрешение то же. Разумеется, в реальной жизни никому не придет в голову использовать такую обработку для векторных картинок. При меньшем уровне сжатия и для картинки с пестрым фоном повреждения будут гораздо меньше. Чувствительность зрения к высокочастотным компонентам изображения (мелким деталям) меньше, чем к низкочастотным составляющим (крупным фрагментам). Поэтому, если в результате обработки «слипнутся», например, травинки или брызги воды, зритель может этого и не заметить. Особенно когда мы имеем дело с видеорядом изображений. Крупные же объекты с плавным краем обработка почти не искажает.

Рис. 3.6. Изменение изображения при конвертации в формат JPEG с максимальным уровнем компрессии


Для видео, кроме компрессии одного кадра – пространственного или внутрикадрового сжатия, – возможно межкадровое сжатие, основанное на том, что два соседних кадра обычно очень похожи.

На межкадровом сжатии основан, например, наиболее часто использующийся формат компрессии MPEG, на котором следует остановиться подробнее. Вообще MPEG – это не формат и даже не группа форматов. По словам одного из разработчиков, Джона Уоткинсона, «MPEG – это набор стандартных средств или точно определенных алгоритмов, которые могут комбинироваться многими способами при реализации аппаратуры цифрового сжатия». Собственно, аббревиатура MPEG расшифровывается как Moving Picture Expert Group (группа экспертов по движущимся изображениям). Он предусматривает компрессию видео– и аудиоматериала, а также способы их объединения и синхронизации. Литературы по MPEG очень много. Мы кратко коснемся только обработки видеоданных. Метод сжатия MPEG 1 основан на том, что полностью записывается лишь один кадр из группы примерно в 10 кадров. Это опорный, или I-кадр. Он сворачивается методами внутрикадрового сжатия. Следующие кадры сравниваются при кодировании, и вычисляются векторы движения. Для этого кадр подразделяется на макроблоки размером 16x16 пикселов, и измеряется движение фрагмента при переходе к следующему кадру. Для некоторого предсказанного кадра (P-кадра) производится сравнение с реальным, и определяется ошибка предсказания. При помощи векторов движения и разностных данных кодируются и остальные кадры. Их называют двунаправленными (В-кадрами), поскольку для их декодирования необходим I– или P-кадр до и после данного B-кадра. Последовательности I-, P-, B-кадров объединяются в фиксированные по длине и структуре группы, называемые GOP (Group of Pictures). Каждая такая группа обязательно начинается с I-кадра и с определенной периодичностью содержит P-кадры. Ее структуру описывают как M/N, где M – общее число кадров в группе, а N – интервал между P-кадрами. Для кадров разных типов применяется различный уровень компрессии. Наименее сильно сжимаются I-кадры. Р-кадр составляет по размеру примерно третью часть от I, а B – восьмую. Поэтому суммарный поток данных в значительной степени зависит от состава GOP. В зависимости от назначения и требуемого качества записи – видеофильм, мультимедиа-продукция, фильм для демонстрации в Internet и т. д. – используется различный состав GOP. Так, типичная для Video-CD IPB группа 15/3 имеет следующий вид: IBBPBBPBBPBBPBB. Программы для записи MPEG обычно позволяют пользователю регулировать состав группы.

Теоретически MPEG позволяет описывать кадры большого размера, но в связи с ограничением числа макроблоков на картинку реальный размер кадра составляет 352x240, 30 кадров/с (SIF) или 352x288, 25 кадров/с, формат 4:2:0, 8 бит на точку.

MPEG позволяет значительно уменьшить суммарный поток данных. Естественно, потери качества при очень высоком уровне сжатия будут происходить вне зависимости от алгоритма обработки. Обычно программы сжатия позволяют заранее выбрать требуемое качество и показывают поток данных, которые вы получите в этом случае. Уменьшение потока в ущерб качеству обычно выбирают при создании видео для Intenet и мультимедиа-приложений.

Поскольку B-кадр нельзя декодировать, не приняв последующего P-кадра, кадры декодируются не в линейной последовательности (рис. 3.7).

Рис. 3.7. Изменение последовательность кадров при декодировании MPEG


Алгоритм MPEG 2 является усовершенствованным вариантом MPEG 1, использует поиск и удаление избыточности (повторяющейся информации) в видеосигнале. Поскольку, по некоторым данным, дублируется более 90 % информации, уровень компрессии может быть весьма высоким. Этот стандарт позволяет работать с кадром полного размера, с видео в стандарте не только 4:2:2, но и 4:4:4, чересстрочной разверткой, широкоформатным изображением (соотношение сторон кадра 16:9).

MPEG подразделяется на уровни и профили. Профиль определяет набор методов обработки, а уровень – перечень ограничений, таких, как размер кадра или скорость потока данных.

В профиле Simple (простой) отсутствуют B-кадры, профиль Main (основной) – это обычный MPEG 1. В более высоких профилях – Main+ (основной+), Next (следующий) – используется разделение на три слоя, что позволяет организовать приоритет при передаче данных. При пространственном масштабировании основной, менее приоритетный слой кодируется с меньшим разрешением и затем используется как предсказание для более приоритетных. SNR-каналы (Signal to Noise Ratio Scalability – масштабирование соотношения сигнал/шум) кодируются с одинаковой скоростью, но с разным качеством: менее приоритетный слой содержит плохую картинку – более дискретные шаги, а высокоприоритетный слой содержит довесок, позволяющий построить качественную картинку.

При временном масштабировании слои различаются по скорости передачи информации. Обычно больший приоритет имеют низкочастотные компоненты, а меньший – более высокочастотные (мелкие детали).

Уровни определяют размер кадра и величину потока – см. табл. 3.1.

Существуют запретные сочетания уровней и профилей, например для профиля Main невозможны уровни High. Наиболее часто встречается сочетание главного уровня с главным профилем. Встретив обозначение ML@MP, не пугайтесь, это всего лишь Main Level, Main Profile. Возможны и более развернутые обозначения, например IBP 15/3 MP@ML. Вы, наверное, уже поняли, что такая запись означает главный уровень, главный профиль, кодирование с использованием и I-, B– и P-кадров, группы из 15 кадров, по 3 B-кадра между P-кадрами.

Таблица 3.1

MPEG 2 является наиболее распространенным способом сжатия видеоданных и применяется во многих цифровых форматах. Однако в наиболее дорогой технике профессионального класса предпочитают обходиться без компрессии, следуя по пути увеличения скорости протяжки ленты и ее расхода, а для компьютерного видео – распараллеливания записей.

Для записей бытового класса и многих случаев видеорегистрации MPEG представляет собой вполне приемлемый вариант. Этот алгоритм с успехом используется в цифровом формате DVD-video, считающемся «последним словом» бытовой видеотехники. При непрерывном просмотре кадры MPEG кажутся полностью реалистичными. Однако это впечатление обманчиво. На рис. 3.8 и 3.9 показаны кадры из одного и того же видеоклипа: один взят из некомпрессированного AVI-файла, другой – из созданного на его основе MPEG-файла.

Рис. 3.8. Фрагмент AVI-файла


Рис. 3.9. Фрагмент из той же видеопоследовательности в формате MPEG


Если вы собираетесь получать из видеоролика отдельные кадры и использовать их, например, для полиграфии, формат MPEG, как и любой другой вариант компрессии, категорически противопоказан!

До недавнего времени считалось, что монтаж MPEG-последовательностей затруднен, если не невозможен. Для монтажа и создания эффектов их приходилось декомпрессировать. Наиболее современные системы видеоввода обеспечивают возможность не только монтажа, но и применения эффектов к видеопоследовательностям в формате MPEG. К сожалению, автор вынуждена честно признаться, что пока не видела видео, созданного подобным способом и ничего не может сказать о его качестве.

Существует (в зачаточном состоянии) еще два MPEG-формата: MPEG 4 и MPEG 7, не являющиеся собственно форматами сжатия. MPEG 4 – новый мультимедиа-формат, рассчитанный на низкоскоростную передачу данных. Суть его заключается в том, чтобы подразделить материал на несколько типов элементов (медиа-объектов): неподвижные, видеообъекты, аудиообъекты и т. д., формализовать их структуру и взаимосвязи и скомпоновать в единую, изменяемую пользователем сцену. Есть его вариант MPEG-J, использующий язык Java. MPEG 7 представляет собой интерфейс для описания и поиска различных типов мультимедиа-информации.

Несмотря на преимущества межкадрового сжатия, для ряда профессиональных форматов, например, Digital S фирмы JVC, применяется только внутрикадровая компрессия.

Цифровые видеоформаты

Как уже отмечалось, количество цифровых форматов значительно превышает количество форматов аналоговых. Даже при наличии общепринятых стандартов практически каждая известная фирма-производитель видеотехники предлагает свою реализацию формата. К сожалению, совместимость даже между разными реализациями одного формата чаще всего (точнее, почти всегда) оставляет желать лучшего. Причина не в сложности разработки совместимых форматов, а в соображениях исключительно маркетингового характера. Как только в среде производителей появляется даже не стандарт, а идея стандарта, сразу начинается борьба за лидерство: каждая фирма стремится первой создать его рыночную реализацию. Кроме того, каждая компания мечтает закрепить за собой своих клиентов «навеки». Поэтому делается все возможное для вертикальной совместимости между собой продукции данной фирмы. Приведет ли это к несовместимости с продукцией конкурентов – пока не важно. Зато потом, когда все, кто успел, уже предложили свои варианты и рынок оказался поделенным, начинается переманивание клиентов у «соседа». Вот тогда производители вдруг начинают заботиться о совместимости, выпускать адаптеры и заключать соглашения. В результате покупатели, растерявшиеся перед разнообразием торговых марок и стандартов, тратят массу времени на попытки разобраться, какой модели отдать предпочтение.

На самом деле, во многих случаях разница между вариантами весьма невелика. В этом разделе автор постаралась привести краткие характеристики наиболее известных форматов. Конечно, здесь нет их полной спецификации и подробных технических описаний. За небольшим исключением также опущены данные, касающиеся особенностей пленки, расположения и числа дорожек, работы головок. Основное внимание уделено стандартам кодирования видеоинформации.

Форматы, с которых все начиналось

Формат D1 – это «дедушка» всех современных цифровых форматов. В нем используется компонентный сигнал, дискретизация 4:2:2, уровень квантования составляет 8 бит. Существование кода, содержащего контрольную информацию, позволяло исправлять ошибки, эквивалентные продольной царапине длиной в 0,5 мм или выпадению трех строк изображения. Аппараты этого формата способны принимать данные в двух основных ТВ стандартах: PAL и NTSC. При этом число строк в поле (полукадре) варъируется: 300 при 625 строках на кадр и 250 при 525 строках на кадр.

Форматы D2 и D3 использовали композитный сигнал (в стандартах PAL или SECAM) и частоту дискретизации, соответствующую четвертой гармонике цветовой несущей. Формат D2 обладал на тот момент беспрецедентной плотностью записи.

D1 и D2 работали на широкой ленте – 3/4 дюйма, D3 – на более узкой, 1/2 дюйма, что дало возможность использовать этот формат для создания первой цифровой видеокамеры.

В наши дни форматы представляют лишь исторический интерес и в современной технике не используются. В дальнейшем композитный видеосигнал не применялся в цифровой технике. Все современные цифровые видеомагнитофоны используют компонентный сигнал.

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!

Страницы книги >> Предыдущая | 1 2 3 4
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации