MPEG2

5.1.3. Формат MPEG2

Стандарт MPEG – 2 был разработан как развитие формата MPEG-1 и является методом сжатия видеоинформации с широким диапазоном скоростей потоков и высоким качеством изображения. Рассматриваемое семейство стандартов обладает информационной совместимостью, т.е. любое декодирующее устройство MPEG-2 способно корректно воспроизводить и потоки MPEG-1.

Основным форматом изображения в данном стандарте является 720х480. Изменения в алгоритме кодирования коснулись возможностей использования форматов кадра 16х9 и 4х3, а так же поддержки чересстрочной развертки, т.е. деления кадра на два полукадра (поля) с нечетными и четными строками соответственно. Изменено так же соотношение между яркостной и цветовыми компонентами – 4:2:2 вместо 4:1:1. Все это отразилось на требуемой полосе пропускания (для фильмов формата VHS - 3 Мбит/с, а для HDTV — 60 Мбит/с). Поэтому основную сферу использования данного стандарта в настоящее время составляют устройства DVD, которые имеют соответствующие скорость и емкость, а так же цифровое спутниковое телевидение.

Алгоритм сжатия оцифрованной видеоинформации MPEG-2 обеспечивает скорость передачи видеоданных со скоростями от 3 до 80 Мбит/с. При разработке MPEG был создан алгоритм перевода видеоданных из формата CCIR-601. Как известно, CCIR-601 - это стандарт цифровой видеоинформации с размером передаваемого изображения 720х486 при 60 полукадрах в секунду. Этот формат учитывает, что строки телевизионного изображения передаются с чередованием (четные и нечетные), и два полукадра составляют кадр. Хроматические каналы (U и V в YUV) передаются размером 360x243 60 раз в секунду и чередуются уже между собой. Подобное деление называется 4:2:2. Оно позволяет уменьшить избыточность в два раза только за счет перевода в другое цветовое пространство.

Алгоритм MPEG-2, как было показано в 5.1.1, анализирует видеоизображение в поисках повторений, называемых избыточностью. В результате процесса удаления избыточности, создается видеоизображение в формате MPEG-2, обеспечивающее более низкие требования к скорости передачи видеоданных. В связи с этим, современные средства доставки видеопрограмм, такие как цифровые спутниковые системы и DVD, используют именно стандарт MPEG-2.

Особенности компенсация движения в MPEG-2. В стандарте MPEG-2 используется метод компенсации движения, основанный на макроблоках. Два смежных кадра, содержащих только активные строки сигнала яркости (576 активных строк), разбиваются на макроблоки. Размеры макроблока согласовываются со структурой дискретизации кадра ТВ изображения. В стандарте MPEG-2 блок -это квадратная матрица отсчетов размером 16 строк по вертикали и 16 столбцов (отсчетов) по горизонтали. Отметим, что при таком формате блока, ТВ кадр разбивается на целое число зон. По вертикали (576 активных строк/16) - это 36 зон, по горизонтали (704 активных отсчета/16) - 44 зоны. Зона поиска должна быть достаточно большой, чтобы быстро движущийся макроблок изображения первого кадра не вышел из зоны поиска второго кадра. Размеры зоны поиска ограничиваются объемом вычислений, которые необходимо выполнить в реальном масштабе времени. Эти размеры также должны быть согласованы с принятой структурой дискретизации ТВ кадра. Обычно, они в 4 раза больше размеров отдельного макроблока. Таким образом, в ТВ кадре создается 9 зон (576/64) поиска по вертикали и 11 (704/64) зон по горизонтали.

Положим, необходимо определить координаты движения при предсказании вперед. Для этого берется макроблок отсчетов первого кадра и ищется его новое положение в зоне поиска второго кадра, вычисляются межкадровые разности отсчетов. Положение макроблока, при котором суммарное значение модулей межкадровых разностей макроблока получается наименьшим, принимается за его реальное перемещение, после чего координаты вектора движения рассчитываются как смещение макроблока по вертикали и горизонтали относительно его начального положения.

Уровни, профили и слои. Стандарт MPEG – 2 допускает 4 уровня (Levels) разрешения кадра и 5 базовых профилей (Profiles) кодирования сигналов яркости и цветности.

Уровни: низкий (LL - Low Level) с разрешением кадра 352х288 (соответствует MPEG1), основной (ML - Main Level) 720х576, высокий - 1440 (HL - High Level) 1440х1152 и высокий 1920 - 1920х1152. Отметим, что если в соответствии с рекомендацией ITU-R BT.601 (International Telecommunications Union – Recommendation) основной уровень определяет разрешение стандартного телевизионного кадра, то высокие уровни ориентированы на телевидение высокой четкости.

Профили В формат MPEG – 2 введены профили. Различают 5 базовых профилей:

- простой (SP - Simple Profile),

- основной (MP - Main Profile),

- 2 масштабируемых – по отношению сигнал-шум (SNR - Scalable Profile) и по разрешению (Spatially Scalable Profile),

- высокий (HP - High Profile).

Важное место также занимает не определенный стандартом, но активно используемый в практике так называемый основной профессиональный MPEG 422 профиль. Его обозначают как 422Р.

Поясним суть и различий профилей.

В простом профиле (SP) осуществляется только компенсация движения и предсказание по одному направлению (P кадры). В основном профиле (MP) предсказание выполняется по двум направлениям, т.е. допускаются B-кадры. В масштабируемых профилях осуществляется разделение исходного цифрового потока видеоданных на несколько частей по различным критериям. В масштабируемом по отношению сигнал-шум (SNR - Scalable Profile) поток разделяют на 2 части. В первой части - основной сигнал, который несет информацию с пониженным отношением сигнал-шум (грубая дискретизация). Но эта часть защищается более устойчивым к помехам передачи алгоритмом, может приниматься в условиях сильных шумов и позволяет (даже при неблагоприятных условиях) восстанавливать ТВ-изображение. Менее защищенная вторая часть включает так называемый дополнительный сигнал, который при неустойчивом приеме отбрасывается. При устойчивом приеме он позволяет дополнить основной сигнал и повысить отношение сигнал-шум до исходного значения.

Пространственно масштабируемый профиль (Spatially Scalable Profile) в определенной степени усложняет схему кодирования. В нем разделение потока осуществляется уже на три части - по критерию разрешения. Первая часть - основной сигнал, обеспечивает передачу устойчивой к помехам информации об изображении стандартного разрешения (625 строк, из них активных 576). Вторая часть дополняет информацию до изображения высокой четкости (1250 строк, 1152 активных), а декодирование третьего сигнала позволяет повысить отношение сигнал-шум.

Пятый профиль (HP), высший, включает в себя все функции предыдущих, но использует YUV- представление и передает цветоразностные сигналы в два раза чаще (в каждой строке, в каждом элементе строки). Известно, что телевизионный сигнал представляет собой совокупность сигнала яркости Y и двух цветоразностных сигналов U и V. При кодировании используются 256 градаций их значений (от 0 до 255 для Y, и от –128 до 127 для U и V), что в двоичном исчислении соответствует 1 байту. Теоретически каждый элемент кадра имеет собственные значения YUV, т.е. при кодировании требует 3 байт. Такое представление, когда яркость и сигналы цветности имеют равное число независимых значений, обычно обозначают как 4:4:4. Но зрительная система человека менее чувствительна к цветовым пространственным изменениям, чем к яркостным. И без видимой потери качества число цветовых отсчетов в каждой строке можно уменьшить вдвое. Именно такое представление, обозначаемое как 4:2:2, было принято в вещательном телевидении. При этом для передачи полного значения телевизионного сигнала в каждом отсчете кадра достаточно 2 байт (чередуя через отсчет независимые значения U и V). Более того, для целей потребительского видео признано допустимым уменьшение вдвое вертикального цветового разрешения, т.е. перейти к представлению 4:2:0. Это уменьшает приведенное число байт на отсчет до 1,5. Отметим, что именно такое представление было заложено в DV-формат цифровых камер, а также формат DVD-видео. Однако, в профессиональных задачах цифрового редактирования и монтажа видеоинформации, когда возможно многократное и многослойное использование фрагментов отснятого материала и включение в него компьютерной анимационной графики, во избежание результирующего накапливания ошибок изначально требуется более высокое качество цифровой видеоинформации. Поэтому здесь считается обязательным представление 4:2:2. Именно этим отличается профиль 422P от основного.

Слои. В MPEG-2 предусмотрена возможность использования трех слоев: base, middle и high. С их помощью организовывается приоритетная обработка видеоданных. При этом канал с более высоким приоритетом кодируется с большим количеством информации, с целью коррекции ошибок. Так в процессе пространственного масштабирования (Spatial scalability) основной слой кодируется с меньшим разрешением и затем используется как основа предсказания для более приоритетных. При дроблении данных (Data Partitioning) блок разбивается на два потока, из которых более приоритетный переносит низкочастотные (наиболее критичные к качеству), а менее приоритетный - высокочастотные компоненты изображения кадров.

В стандарте MPEG-2 предусмотрено использование вектора панорамирования и масштабирования (Pan&Scanning), который предоставляет видеодекодеру информацию об особенностях преобразования видеоданных, например 16 : 9 в 4 : 3. Точность частотных коэффициентов может выбираться пользователем (8, 9, 10, 11 бит на одно значение; в MPEG-1 фиксирован размер в 8 бит). Введены новые режимы предсказания движения (16x8 MC, field MC, Dual Prime) Предусмотрена возможность загружать матрицу преобразований непрерывных данных в дискретные (quantization matrix) перед каждым кадром.

В области аудиоинформации введены новые частоты 16, 22.05, 24 КГц.

MPEG 2 поддерживает многоканальность. Имеется возможность использовать 5 полноценных каналов (left, center, right, left surround, right surround) и один низкочастотный (subwoofer).

MPEG-2 AAC. MPEG-2 Advanced Audio Coding, выпущенный в 1995 г. , был разработан для сжатия многоканальной (до 42 каналов) аудиоинформации высокого качества (от 8 до 96 КГц). Формат поддерживает силу сжатия от 8 до 160 Кбит/с. Он не совместим с предыдущими форматами MPEG.. ААС используется в MPEG -2 и возможно будет использован в последующих разработках MPEG.

Технология ААС использована фирмой АТ&Т в формате А2В Music, который предназначен для продажи через Internet аудиоинформации в сжатом виде. Воспроизведение этой аудиоинформации будет возможно лишь по специальному ключу.

Системный уровень MPEG-2, обеспечивает два уровня объединения данных. Первый уровень разбивает звуковую и видеоинформацию на пакеты (Packetized Elementary Stream).

Второй уровень делится на:

MPEG-2 Program Stream (совместим с MPEG-1 System) - для локальной передачи в среде с небольшим уровнем ошибок

MPEG-2 Transport Stream (рис. 7) ориентирован на внешнее вещание в среде с высоким уровнем ошибок. В этом случае осуществляется передача транспортных пакетов (длиной 188 либо 188+16 бит) двух типов (сжатые данные -- PES и сигнальная таблица - Program Specific Information).

Рис. 7 Структура процесса преобразования видео и аудио информации в MPEG-2

MPEG-2 информационно совместим с MPEG-1.