Что значит формат mpeg

Содержание

MPEG для чайников.
MPEG-1
Как MPEG работает:
Таблица 1
Таблица 2
Звук в MPEG:
Параметры MPEG-1 (Утверждены в 1992)
Таблица 3
Описание форматов MPEG 1, MPEG 2, MPEG 3
Описание форматов MPEG 1, MPEG 2, MPEG 3

MPEG для чайников.

Стандарт сжатия MPEG разработан Экспертной группой кинематографии (Moving Picture Experts Group — MPEG). MPEG это стандарт на сжатие звуковых и видео файлов в более удобный для загрузки или пересылки, например через интернет, формат.

Существуют разные стандарты MPEG (как их еще иногда называют фазы — phase): MPEG-1, MPEG-2, MPEG-3, MPEG-4, MPEG-7.

MPEG состоит из трех частей: Audio, Video, System (объединение и синхронизация двух других).

MPEG-1

По стандарту MPEG-1 потоки видео и звуковых данных передаются со коростью 150 килобайт в секунду — с такой же скоростью, как и односкоростной CD-ROM проигрыватель — и управляются путем выборки ключевых видео кадров и заполнением только областей, изменяющихся между кадрами. К несчастью, MPEG-1 обеспечивает качество видеоизображения более низкое, чем видео, передаваемое по телевизионному стандарту.

MPEG-1 был разработан и оптимизирован для работы с разрешением 352 ppl (point per line — точек на линии) * 240 (line per frame — линий в кадре) * 30 fps (frame per second — кадров в секунду), что соответствует скорости передачи CD звука высокого качества. Используется цветовая схема — YCbCr (где Y — яркостная плоскость, Cb и Cr — цветовые плоскости).

Как MPEG работает:

В зависимости от некоторых причин каждый frame (кадр) в MPEG может быть следующего вида:

I (Intra) frame — кодируется как обыкновенная картинка.
P (Predicted) frame — при кодировании используется информация от предыдущих I или P кадров.
B (Bidirectional) frame — при кодировании используется информация от одного или двух I или P кадров

Читайте также: Что значит пить звук

Последовательность кадров может быть например такая: IBBPBBPBBPBBIBBPBBPB.

Последовательность декодирования: 0312645.

Нужно заметить, что прежде чем декодировать B кадр требуется декодировать два I или P кадра. Существуют разные стандарты на частоту, с которой должны следовать I кадры, приблизительно 1-2 в секунду, соответствуюшие стандарты есть и для P кадров (каждый 3 кадр должен быть P кадром). Существуют разные относительные разрешения Y, Cb, Cr плоскостей (Таблица 1), обычно Cb и Cr кодируются с меньшим разрешением чем Y.

Таблица 1

Вид Формата	Отношения разрешений по горизонтали (Cb/Y):	Отношение разрешений по вертикали (Cb/Y):
4:4:4	1:1	1:1
4:2:2	1:2	1:1
4:2:0	1:2	1:2
4:1:1	1:4	1:1
4:1:0	1:4	1:4

Для применения алгоритмов кодировки происходит разбивка кадров на макроблоки каждый из которых состоит из определенного количества блоков (размер блока — 8*8 пикселей). Количество блоков в макроблоке в разных плоскостях разное и зависит от используемого формата

Техника кодирования:

Для большего сжатия в B и P кадрах используется алгоритм предсказания движения (что позволяет сильно уменьшить размер P и B кадров — Таблица 2) на выходе которого получается:

Вектор смещения (вектор движения) блока который нужно предсказать относительно базового блока.
Разница между блоками (которая затем и кодируется).

Так как не любой блок можно предсказать на основании информации о предыдущих, то в P и B кадрах могут находиться I блоки (блоки без предсказания движения).

Таблица 2

Вид кадра	I	P	B	Средний размер
Размер кадра для стандарта SIF (kilobit)	150	50	20	38

Метод кодировки блоков (либо разницы, получаемой при методе предсказание движения) содержит в себе:

Discrete Cosine Transforms (DCT — дискретное преобразование косинусов).
Quantization (преобразование данных из непрерывной формы в дискретную).
Кодировка полученного блока в последовательность.

DCT использует тот факт, что пиксели в блоке и сами блоки связаны между собой (т.е. коррелированны), поэтому происходит разбивка на частотные фурье компоненты (в итоге получается quantization matrix — матрица преобразований данных из непрерывной в дискретную форму, числа в которой являются величиной амплитуды соответствующей частоты), затем алгоритм Quantization разбивает частотные коэффициенты на определенное количество значений. Encoder (кодировщик) выбирает quantization matrix которая определяет то, как каждый частотный коэффициент в блоке будет разбит (человек более чувствителен к дискретности разбивки для малых частот чем для больших). Так как в процессе quantization многие коэффициенты получаются нулевыми то применяется алгоритм зигзага для получения длинных последовательностей нулей

Звук в MPEG:

Форматы кодирования звука деляться на три части: Layer I, Layer II, Layer III (прообразом для Layer I и Layer II стал стандарт MUSICAM, этим именем сейчас иногда называют Layer II). Layer III достигает самого большого сжатия, но, соответственно, требует больше ресурсов на кодирование. Принципы кодирования основаны на том факте, что человеческое ухо не совершенно и на самом деле в несжатом звуке (CD-audio) передается много избыточной информации. Принцип сжатия работает на эффектах маскировки некоторых звуков для человека (например, если идет сильный звук на частоте 1000 Гц, то более слабый звук на частоте 1100 Гц уже не будет слышен человеку, также будет ослаблена чувствительность человеческого уха на период в 100 мс после и 5 мс до возникновения сильного звука). Psycoacustic (психоакустическая) модель используемая в MPEG разбивает весь частотный спектр на части, в которых уровень звука считается одинаковым, а затем удаляет звуки не воспринимаемые человеком, благодаря описанным выше эффектам.

В Layer III части разбитого спектра самые маленькие, что обеспечивает самое хорошее сжатие. MPEG Audio поддерживает совместимость Layer’ов снизу вверх, т.е. decoder (декодировщик) для Layer II будет также распознавать Layer I.

Синхронизация и объединение звука и видео, осуществляется с помощью System Stream , который включает в себя:

Системный слой, содержащий временную и другую информацию чтобы разделить и синхронизовать видео и аудио.
Компрессионный слой, содержащий видео и аудио потоки.

Видео поток содержит заголовок, затем несколько групп картинок (заголовок и несколько картинок необходимы для того, что бы обеспечить произвольный доступ к картинкам в группе в независимости от их порядка).

Звуковой поток состоит из пакетов каждый из которых состоит из заголовка и нескольких звуковых кадров (audio-frame).

Для синхронизации аудио и видео потоков в системный поток встраивается таймер, работающий с частотой 90 КГц (System Clock Reference — SCR, метка по которой происходит увеличения временного счетчика в декодере) и Presentation Data Stamp (PDS, метка насала воспроизведения, вставляются в картинку или в звуковой кадр, чтобы объяснить декодеру, когда их воспроизводить. Размер PDS сотавляет 33 бита, что обеспечивает возможность представления любого временного цикла длинной до 24 часов).

Параметры MPEG-1 (Утверждены в 1992)

Параметры Аудио: 48, 44.1, 32 КГц, mono, dual (два моно канала), стерео, интенсивное стерео (объединяются сигналы с частотой выше 2000 Гц.), m/s stereo (один канал переносит сумму — другой разницу). Сжатие и скорость передачи звука для одного канала, для частоты 32 КГц представлены в Таблице 3.

Таблица 3

Способ кодирования	Скорость передачи kbps (килобит в сек.)	Коэффициент сжатия
Layer I	192	1:4
Layer II	128..96	1:6..8
Layer III	64..56	1:10..12

Параметры Видео: в принципе с помощью MPEG-1 можно передавать разрешение вплоть до 4095x4095x60 fps (в этих границах кадр может быть произвольного размера), но так как существует Constrained Parameters Bitstream (CPB, неизменяемые параметры потока данных; другие стандарты для MPEG-1 поддерживаются далеко не всеми декодерами) которые ограничивают общее число макроблоков в картинке (396 для скорости

Источник

Описание форматов MPEG 1, MPEG 2, MPEG 3

Проблема «упаковки» видеопрограмм сопровождала все этапы развития цифровых систем передачи информации. Пропускная способность коммуникационных сетей, емкость цифровых носителей всегда отставали (и, наверное, будут отставать) от желания как самих вещателей, так и нас — потребителей. Собственно, отставание возможностей от потребностей, по-видимому, является движущей силой прогресса.

Чтобы рассуждения о необходимости упаковки данных не выглядели голословными, проведем простой подсчет.
Телевизионный кадр (здесь и далее — стандарта PAL) содержит 576 активных строк (всего их 625, но часть из них — служебные). Согласно стандарту ITU-R ВТ.601 международного телекоммуникационного сообщества (ITU — International Telecommunications Union) каждая строка содержит 720 независимых отсчетов. Таким образом, телевизионный кадр представляет собой матрицу из 720х576 точек, а предельно достижимое разрешение ограничено 700 линиями. В оцифрованном телевизионном сигнале каждый кадр представляет собой точечный рисунок, где точка образована отсчетом в горизонтальной строке. Таких «рисунков» должно проходить 25 за секунду (если строго — 50 полукадров полей, состоящих из четных и нечетных строк соответственно). Тогда информационный объем одной минуты цифрового видеосигнала с разрешением, соответствующим вещательному, и при глубине цвета 24 бита (True Color) составит 720х576 точек х 24 бита цветности х 25 кадров/с х 60 с = 1866 Мб: То есть без малого 2 гигабайта. При этом скорость цифрового видеопотока будет равна 250 Мбит/с. Даже если поступиться качеством и рассматривать вдвое худшее разрешение по обеим осям (360х288), что примерно соответствует качеству хорошей VHS-записи), объем минуты видеопрограммы займет 467 Мб, а соответствующая скорость цифрового потока составит более 60 Мбит/с. Надо учесть, что мы принимали в расчет только видео, а ведь каждый фильм имеет и звуковое сопровождение. Получается, что все равно такой сигнал останется слишком громоздким для прямого использования даже в современных коммуникациях или на современных носителях.
В конце 80-х — начале 90-х годов единственным цифровым носителем, пригодным для массового тиражирования, был компакт-диск емкостью 650 Мб, а скорость цифрового потока при его воспроизведении составляла порядка 150 кб/с (1,2 Мбит/с); пропускная способность коммуникационных сетей не превышала 3 Мбит/с. Проблема:

Как это сделали.

Руководствуясь подобными ориентирами, группа специалистов международной организации по стандартизации (ISO) в 1998 г. приступила к разработке международных стандартов кодирования и сжатия видео- и аудиоинформации. Официальное наименование этой группе было дано совершенно невоспроизводимое — ISO/IECJTC1 SC29 WG11. Впоследствии она стала известна как «Экспертная группа по кинематографии» (Moving Picture Expert Group), а аббревиатура MPEG, образованная от английского варианта обиходного названия этой группы, давно уже используется как обозначение разработанных ею норм и стандартов.
В основу правил сжатия видеоданных была заложена идея поиска и устранения избыточной информации, не влияющей на конечное восприятие качества изображения. В первую очередь, был учтен «человеческий фактор» — психофизиологическая модель восприятия человеком видеоизображений (HVS — Human Visual Sense); в частности, тот факт, что градации яркости воспринимаются зрительным аппаратом человека значительно тоньше, чем градации цвета. Это означает, что цветовую информацию можно «загрубить» по сравнению с яркостной, при этом в субъективном восприятии качество изображения не ухудшится. То есть первоочередным направлением в построении алгоритмов всех стандартов MPEG становится отыскание и устранение информации, избыточной с точки зрения субъективного восприятия.

Что из этого получилось.

Работала экспертная группа весьма плодотворно: за десятилетие разработано целое семейство стандартов; более того, почти все они живут и успешно работают. Лучшим свидетельством тому служит тот факт, что аббревиатуры MPEG и МР стали обиходными на бытовом уровне. Даже потребитель соотносит эти «имена» не со стандартными именами или их разработчиками, а с мультимедиа продукцией. Но будем хронологически точны, и проследим наиболее важные этапы становления MPEG.

Первый стандарт появился в 1992 г. и был рассчитан на передачу видео по низкоскоростным сетям или для записи на компакт-диски (Video-CD). Как вы, наверное, поняли, максимально возможная скорость цифрового потока была изначально ограничена порогом в 150 кб/с (односкоростной CD-ROM или стандартный аудиопроигрыватель компакт-дисков). Первые видеодиски и спутниковые телепередачи в формате MPEG1 казались чудом — фильм можно смотреть при такой низкой скорости потока! Чтобы уложится в заданные рамки, конечно, пришлось поступиться качеством. В MPEG1 разрешающая способность картинки снижена, по сравнению с разверткой вещательного телевидения, в 2 раза по обеим осям: 288 активных строк в ТВ-кадре и 360 отсчетов в активной части ТВ-строки. В принципе, это разрешение близко по уровню к формату аналоговой VHS-видеозаписи. Но нельзя забывать о JPEG-компрессии. Уменьшение числа отсчетов означает тем самым увеличение блоков и макроблоков внутри каждого кадра. То есть снижение разрешения автоматически делает внутрикадровую компрессию более грубой, и, как следствие — более заметной потребителю. Однотонные поверхности оказываются как бы соствленными из рассыпающихся квадратиков; особенно назойливо квадратики «вылезают» на динамичных сценах.
Известны случаи, когда при выпуске версий фильмов на Video-CD приходилось урезать в несколько раз многие сцены с большим количеством движения: погони, драки, взрывы и т.п. Однако повторим, что в целом качество фильмов в MPEG1 сравнимо с бытовой VHS-кассетой, и полнометражный фильм можно уместить на 2 компакт-дисках, так что в середине просмотра придется их менять. По этим причинам, а также по причине прогресса цифровых технологий стандарт MPEG1 не успел получить большего распространения. От него нам остались в основном стандарты сжатия звука, существующие сегодня самостоятельно (о них несколько слов ниже).

Справедливости ради и для полноты охвата следует упомянуть еще об одной попытке преодоления врожденных недостатков — о формате Super Video CD. В этой версии было повышено разрешение, снижена степень JPEG-компрессии (что, конечно, повысило качество картинки) и добавлена поддержка многоканального звука. Но неизбежное следствие — рост объема информации: средний фильм «распух» до 3 компакт-дисков! Для стимулирования этого формата рядом фирм были выпущены специальные плееры, оснащенные трехдисковыми чейнджерами. Но, несмотря на относительную дешевизну, формат SuperVideoCD так и не стал альтернативой DVD и получил весьма ограниченное распространение только в ряде стран Юго-Восточной Азии.

Время шло, и прогресс в области цифровых технологий потребовал (или позволил?) существенно усовершенствовать процесс компрессии видеоданных. Так появился новый стандарт MPEG2, работа над которым, собственно, началась сразу после выхода MPEG1 и завершилась в 1995 г.
«Второй » MPEG не принес революционных изменений, это — вполне революционная доработка старого стандарта под новые возможности техники и новые требования заказчиков — крупнейших компаний mass-media. MPEG2 предназначался для обработки видеоизображения, соизмеримого по качеству с телевизионным вещательным, при пропускной способности каналов передачи данных от 3 до 15 Мбит/с. Сейчас стандарт MPEG2 ассоциируется у подавляющего большинства читателей и зрителей с DVD-дисками. Но в 1992 г., когда стартовали работы над этим стандартом, еще не существовало широкодоступных носителей, на которые можно было бы записать видеоинформацию, сжатую по алгоритмам MPEG2. Самое главное — компьютерная техника того времени не могла обеспечить и нужную полосу пропускания. Зато спутниковое телевидение с новейшим по тем временам оборyдованием уже тогда готово было предоставить канал передачи с необходимыми характеристиками.
В октябре 1995 года через телевизионный спутник «Pan Am Sat» было реализовано первое 20-канальное цифровое ТВ-вещание, использовавшее стандарт MPEG2. Спутник осуществлял вещание на территории Скандинавии, Бенилюкса, Ближнего Востока и Северной Африки.

С появлением же в середине 90-х гг. цифрового многоцелевого диска DVD (Digital Versatile Disk, Digital Video Disk), обладающего в простейшей — односторонней и однослойной — версии емкостью 4,7 Гб (почти в 8 раз больше CD), он, естественно, становится практически безальтернативным массовым носителем для распространения качественной продукции, сжатой по стандарту MPEG2. Это обусловило массовое производство бюджетных DVD-проигрывателей и, конечно, появление недорогих аппаратных кодеров/декодеров. На стандарте MPEG2 сейчас построены все системы цифрового спутникового телевидения, в частности, система «НТВ+». На нем же основываются эфирные системы цифрового телевещания DVB, получающие все более широкое распространение в ряде стран Западной Европы и в США. В профессиональной студийной аппаратуре для реализации цифрового нелинейного монтажа используется версия EDITABLE MPEG, в которой все кадры ключевые, а скорость потока в формате 4:2:2 достигает 50 Мбит/с.

Но это лишь констатация факта. Попробуем приблизительно пояснить, в чем основные отличия MPEG2 от предшественника, сделавшие его привлекательным. Как мы отмечали, революционных изменений в новом стандарте нет, но усовершенствование коснулось практически всех этапов «упаковки»; более того, появились операции, ранее не применявшиеся. К примеру, после разбивки видеопотока на кадры и группы кадров кодер анализирует содержимое очередного кадра на предмет повторяющихся, избыточных данных. Составляется список оригинальных участков и таблица повторяющихся участков. Оригиналы сохраняются, копии удаляются, а таблица повторяющихся участков используется при декодировании сжатого видеопотока. Значительное повышение плотности упаковки было также достигнуто благодаря применению во внутрикадровом сжатии нелинейного преобразователя Фурье взамен линейного. Оптимизации подвергся алгоритм предсказания движения, а также введены несколько новых, ранее не используемых алгоритмов компрессии видеоданных. Они в совокупности позволяют кодировать разные слои кадра в зависимости от их важности с разной интенсивностью цифрового потока. Стандарт MPEG2 предоставляет программистам и «продвинутым» пользователям возможность в процессе кодирования задавать точность частотных коэффициентов матрицы квантования, что непосредственно влияет на качество получаемого в результате сжатия изображения (и на размер тоже). Точность квантования может варьироваться в диапазоне 8-11 бит на одно значение элемента. Для сравнения: в MPEG1 предусматривалось только одно фиксированное значение — 8 бит на элемент. То есть в рамках стандарта MPEG2 имеется возможность гибкой настройки качества изображения в зависимости от пропускной способности сети или емкости носителя (вот почему на первых DVD можно было видеть разное по качеству изображение). Биты на элемент — это понятие, знакомое компьютерным «юзерам». В то же время, пользователи таких аппаратов, как DVD- или HD-рекордеры, использующих MPEG2-компрессию, знают, как можно самим задавать уровень качества записи (HQ, SP, LP и т.д.), меняя таким образом объем записанного материала. Эта гибкость, в частности, и сделала MPEG2 основой для приема/передачи цифрового телевидения по различным цифровым сетям.

В результате для фильмов, созданных в стандартах PAL и SECAM, поддерживается разрешение 720х576 при 25 кадрах в секунду при качестве, практически не уступающем вещательному. Собственно, MPEG-фильм нельзя отнести к какой-либо системе цветного телевидения, так как кадры в MPEG являются просто картинками и не имеют прямого отношения к исходной для фильма системе телевидения; речь может идти о соответствии размера и частоты следования кадров.
В части аудио в MPEG2, по сравнению с MPEG1, добавлена поддержка многоканального звука(Dolby Digital 5.1, DTS и т.п.)

Прежде всего, не следует смешивать с широкоизвестным форматом компрессии звука МР3, о котором речь пойдет ниже. Стандарт MPEG3 первоначально разрабатывался для использования в системах телевидения высокой четкости (High Definition Television, HDTV) со скоростью потока данных 20-40 Мбит/с. Но еще в процессе разработки стало ясно, что параметры, требуемые для передачи HDTV, вполне обеспечиваются использованием стандарта MPEG2 при увеличенной скорости цифрового потока. Другими словами, острой нужды в существовании отдельного стандарта для HDTV нет. Таким образом, MPEG3, еще не родившись, стал фактически составной частью стандарта MPEG2 и отдельно теперь даже не упоминается.

В новом стандарте MPEG4, появившемся в самом конце 1999 г., предложен более широкий взгляд на медиа-реальность. Стандарт задает принципы работы с контентом (цифровым представлением медиа-данных) для трех областей: собственно интерактивного мультимедиа (включая продукты, распространяемые на оптических дисках и через Интернет), графических приложений (синтетического контента) и цифрового телевидения (DTV). Фактически данный стандарт задает правила организации среды, причем среды объектно ориентированной. Он имеет дело не просто с потоками и массивами медиа-данных, а с медиа-объектами (ключевое понятие стандарта). В MPEG4 определен двоичный язык описания объектов, классов и сцен BIFS, который разработчики характеризуют как «расширение С++». Помимо работы с аудио- и видеоданными, стандарт позволяет работать с естественными и синтезированными компьютером 2D- и 3D-объектами, производить привязку их взаимного расположения и синхронизацию друг относительно друга, а также указывает их интерактивное взаимодействие с пользователем.
Картинка разделяется на составные элементы — медиа-обьекты, описывается структура этих объектов и их взаимосвязи, чтобы затем собрать их в единую видеозвуковую сцену. Результирующая сцена составляется из медиа-объектов, объединенных в иерархическую структуру:

а) неподвижные картинки (например, фон);
б) видеообъекты (например, говорящий человек);
в) аудиообъекты (голос, связанный с этим человеком);
г) текст, связанный с этой сценой;
д) синтетические объекты, которых не было изначально в описываемой сцене, но которые туда
добавляются при демонстрации конечному пользователю (например, синтезируется говорящая голова);
е) текст (например, связанный с головой), из которого в конце синтезируется голос.

Такой способ представления данных позволяет изменить результирующую сцену, обеспечивая высокий уровень интерактивности для конечного пользователя и предоставляя ему целый ряд возможностей, например: перемещать и помещать объекты в любое место сцены, трансформировать объекты, изменять их форму и геометрические размеры, собирать из отдельных объектов составной объект и производить над ним какие-либо операции, менять текстуру и цвет объекта, манипулировать им (заставить, к примеру, стол передвигаться в пространстве), менять точку наблюдения за всей сценой.

Особое внимание уделим довольно узкой области приложения стандарта MPEG4 — сжатию видеоматериалов, поскольку именно эта область, скорее всего, на практике хорошо известна значительному числу пользователей-зрителей по аббревиатуре MР4 (так условно обозначают фильмы, сжатые кодером по стандарту MPEG4). Алгоритм компрессии видео, в принципе, работает по той же схеме, что и в предыдущих стандартах, но есть несколько радикальных нововведений. В отличие от прежних стандартов, которые делили кадр на квадратные блоки вне зависимости от содержимого, новый кодер оперирует целыми объектами произвольной формы. К примеру, человек, двигающийся по комнате, будет восприниматься как отдельный объект, перемещающийся относительно другого неподвижного объекта — заднего плана. Также применен «интеллектуальный» способ расстановки ключевых кадров. Ключевые кадры не расставляются с заданной регулярностью, а выделяются кодером только в те моменты, в которые происходит смена сюжета. Естественно, разветвленные алгоритмы поиска и обработки объектов сложной формы, углубленного анализа последовательностей кадров требуют существенно больших вычислительных ресурсов для качественного восстановления (декомпрессии) изображения этого формата, нежели в случае MPEG1 и -2. К счастью, производительность современных процессоров позволяет обойти это препятствие. В результате усовершенствования эффективности компрессии видео в MPEG4 возросла настолько, что позволяет размещать полнометражный фильм длительностью полтора-два часа с весьма приличным качеством всего на одном стандартом компакт-диске (650 Мб)! Впрочем, не стоит питать иллюзий по поводу рекламируемого «DVD-качества» MPEG4-продукции. Следует помнить, что, сколь совершенным не является кодер, всегда существует ограничение на минимальный размер (поток) сжатого видео. Поэтому фильмы в MPEG4, размещенные даже на двух компакт-дисках (2х650 Мб), все-таки не дотягивают до качества DVD-видео в стандарте MPEG2.

Здесь размеренное течение событий нарушается и неожиданно приобретает детективно-драматическую окраску. В борьбе с конкурентами на рынке потокового видео (в частности, упомянем компьютерную компанию Apple и ее «софт» QuickTime) в корпорации Microsoft занялись разработкой кодера, позволяющего компрессировать видеопоток в соответствии со стандартом MPEG4. На одном из этапов отладки нового продукта бета-версия этого кодера стала достоянием широких масс: и хакерской общественности. А далее несколько нетерпеливых взломщиков (желающие могут именовать их по старинке «пиратами»), которые не хотели дожидаться окончания разработки Microsoft, внесли в эту программу небольшие усовершенствования, переименовали в DivX-кодер и выложили в информационную сеть для свободного использования. Усовершенствования коснулись, в первую очередь, предачи пользователям возможности самостоятельно компрессировать видео, настраивая качество, длительность и т.д. Дальше — больше: спустя примерно полгода теперь уже вполне легальная фирма DivXNetworks Inc. переработала этот продукт и сняла с него клеймо «Веселого Роджера». Обновленные версии кодера под тем же именем DivX все так же свободно доступны в сети всем желающим: www.divx.com (совпадение названий продукта и фирмы, естественно, неслучайно). Microsoft еще на «пиратской» стадии этой истории по вполне понятным «политическим» мотивам свернула разработки в данном направлении, включая в новые версии своих операционных систем только модуль для воспроизведения уже закодированного видео :

Как мы упоминали, фильмы на компакт-дисках с условной маркировкой МР4 уже широко представлены в торговых ларьках и на рынках. Их можно смотреть на большинстве современных компьютеров, вычислительной мощности которых достаточно для декодирования МР4-фильма в реальном масштабе времени. Можно и самому «упаковать» свое видео, установив программный DivX-кодер. Но по-настоящему массовому распространению видеопродукции, упакованной по стандарту MPEG4 (как дешевой альтернативы DVD), препятствует отсутствие аппаратных средств кодирования/декодирования видео. Заметим, что их распространение, в свою очередь, сдерживает отсутствие надежной защиты от несанкционированного копирования (в отличие от DVD, где этому уделено значительное внимание). Так что пока решается проблема авторских прав, смотреть МР4-фильмы можно будет только с помощью компьютера. Если эта проблема разрешится (а рынок подталкивает к этому разработчиков: смотрите информацию в разделе «Новинки»), МР-4 видеопродукция может потеснить DVD в области бытового видео. Киностудии, издатели и разработчики AV-аппаратуры не могут с безразличием относится к этим подвижкам: может быть, именно на DVD-дисках скоро будет возможна запись видеопрограмм высокой четкости (HDTV), а может: Впрочем, прогнозы — дело неблагодарное. Отметим только, что технологические основания для такого развития сюжета уже имеются:

Последняя, выпущенная в конце минувшего года разработка — новый стандарт MPEG7 — вовсе не является непосредственным продолжением линейки MPEG-предшественников, хотя по предмету стандартизации частично перекликается с ними. MPEG7 должен обеспечивать формализацию и стандартизацию описания различных типов мультимедийной информации (а не ее кодирования), чтобы гарантировать эффективный и быстрый ее поиск. Официально новый стандарт называют Multimedia Content Description Interface — интерфейс описания мультимедийных данных. В нем определен стандартный набор дескрипторов («описывателей») для различных типов мультимедиа-информации. Здесь также стандартизируется способ определения своих дескрипторов и их взаимосвязи (Description Schemes). Для этих целей в MPEG7 вводится специализированный язык DDL (Description Definition Language — язык описания определений). Основная цель применения нового стандарта — эффективный поиск мультимедийной информации (естественно, специализированными поисковыми машинами) аналогично тому, как сейчас мы можем найти текст по каким-нибудь ключевым словам или фразе. Поясним на примерах.

Музыка: Сыграв несколько нот на клавиатуре, можно получить список музыкальных произведений, которые содержат такую последовательность звуков.
Графика: Нарисовав эскиз на экране, получим набор рисунков, содержащих подобный фрагмент.
Картины: Определив объект (задав его форму и текстуру), получим перечень картин, содержащий таковой.
Видео: Задав соответствующий объект и его движение, получим набор видео или анимационных роликов.
Голос: Задав фрагмент голоса певца, получим набор песен и видеоклипов, в которых он поет.

Последнее замечание — о стандарте, который обозначается похожей на MPEG аббревиатурой MHEG. Он также имеет некоторое отношение к рассматриваемой нами теме, но, подчеркиваем, лишь некоторое, поскольку его применение планируется для передачи мультимедийной информации по различным коммуникационным сетям. MHEG разрабатывается другой группой специалистов, принадлежащей, впрочем, к все той же международной организации по стандартизации ISO. Называется группа соответственно Multimedia&Hypermedia Expert Group (экспертная группа по мультимедиа и гипермедиа). Разрабатываемый ею стандарт определяет правила обмена мультимедийной информацией (видео, звук, текст и любые другие данные) между произвольными мультимедийными приложениями. Стандартом MHEG также определяются нормы передачи информации любыми способами — через локальные сети, сети телекоммуникаций или вещания — с использованием так называемой объективной классификации (MHEG Object Classes). При этом сами объекты могут включать в себя любую систему кодирования (в частности, MPEG), которая определяется конкретным базовым приложением. Стандартные MHEG-объекты должны создаваться мультимедийными приложениями с использованием специализированного языка — Multimedia Scripting Language. Стандарт MHEG уже признан советом по цифровому видео и звуку (DAVIC, Digital Audio-Visual Council).Разработчики утверждают, что MHEG — это будущий международный стандарт для интерактивного телевидения, так как он работает на любых платформах, а документация по нему распространяется совершенно свободно.

И в завершение, как обещали, немного о звуке в стандартах MPEG. Кодирование звука и музыки осуществляется отдельным аудиокодером. По мере развития стандарта MPEG звуковые кодеры также совершенствовались, становясь все эффективнее. В основе повышения эффективности — та же идея: сократить объем «второстепенной» для слушателя аудиоинформации. В результате в составе стандарта MPEG1 было создано семейство из трех звуковых кодеров, названных «слоями»: Layer I, Layer II, Layer III. Все они, подобно видеокодерам, построены на несовершенстве «человеческого фактора»: психоакустическая модель здесь эксплуатирует несовершенства слухового аппарата человека. По мнению ученых, в несжатом звуке передается много избыточной информации. Избыточной в том смысле, что человеческое ухо ее все равно не воспринимает. Большой эффект для сжатия дает, например, явление маскирования некоторых звуков. В частности, если сначала подать громкий звук на частоте 1000 Гц, то более тихий звук на частоте 1100 Гц уже не будет фиксироваться слухом. В модели используется и явление ослабления чувствительности человеческого уха на период в 5 мс — до и 100 мс — после возникновения сильного звука. Существуют похожие временные эффекты маскирования; известны и более сложные взаимодействия, когда временный эффект может выделить конкретную частоту или, наоборот, подавить. Психоакустическая модель — как свод правил — разбивает весь спектр на блоки, в которых уровень звука считается близким. Затем удаляет звуки, формально не воспринимаемые человеком в соответствии с описанными выше эффектами. Потом следует процедура «упаковки» методами, напоминающими по принципу компьютерные архиваторы (опять же — с устранением избыточности), и, наконец, формируется цифровой информационный поток. Идеология сжатия всех «слоев» сходна, разница — в методах и в математике.

Первый «слой» (Layer I) был рассчитан на поток скоростью 192 кбит/с на канал. Алгоритм его в целом похож на систему сжатия звука ATRAC, которая реализована на мини-дисках Sony. Разновидность Layer I используется и в устройствах записи цифровых компакт-кассет DCC. Разновидность Layer II, предназначенная для потоков до 128 кбит/с на канал, была разработана как компромисс между качеством звука, величиной потока и сложностью кодера. В нем были, в первую очередь, усовершенствованы гребенчатые фильтры. Этот «слой» весьма сходен с известным аудиостандартом MUSICAM. Наибольшее применение Layer II нашел в сетях цифрового радиовещания DAB (Digital Audio Broadcasting).

И, наконец, Layer III исходно был рассчитан на низкоскоростные сети с потоком до 64 кбит/с на канал. Благодаря усилиям до того малоизвестного немецкого института информационных технологий имени Фраунгофера (IIS Fraunhofer) в 1998 г. был сделан почти революционный прорыв. Усовершенствование математики в части алгоритма преобразования Фурье и механизмов упаковки спектральных коэффициентов позволило сохранить » CD-качество» звука при низкой скорости потока. Естественно, такое достижение потребовало больших вычислительных ресурсов, но производительности современных компьютеров к тому времени уже хватало и на это. В результате появился формат сжатия аудиоинформации МР3 (полное его название — MPEG Audio Layer III), который начал вполне самостоятельную жизнь. Тот же институт Фраунгофера выпустил первый аппаратный кодер, работающий в реальном времени. За этим шагом последовали другие (МР3-Pro). Сегодня миниатюрные МР3-плейеры и диктофоны с флэш-картами разных мастей знакомы многим. Любой пользователь Интернета знает о распространении сжатого звука через сеть, знает о серверах, «набитых» музыкой в формате МР3. Естественно, вслед за удачным решением массовому потребителю уже предложены форматы-конкуренты, в частности, WMA от Microsoft, ААС (как «продвинутый» Dolby Digital АС-3): Здесь уместно упомянуть и технологию Meridian Lossless Packing (MLP), которая, напротив, используется в аудиофильских записях DVD-Audio — но это предмет, достойный отдельного разговора.

Источник