什么是MPEG4？

MPEG-4标准的主要技术和编码综述

摘要:简要介绍了MPEG-4标准的主要内容，并在此基础上重点介绍了音频对象和视频对象的编码。

关键词:MPEG-4；多媒体传输集成框架；视频编码前言0

MPEG-4编码标准是最新的国际编码标准规范？本文简要概括了其主要内容？在此基础上，重点介绍了具有特征的音频对象和视频对象的编码。

1多媒体传输集成框架

多媒体传输集成框架(multimedia Transmission Integration Framework，DMIF)主要解决多媒体应用在交互式网络、广播环境和磁盘中的操作问题，通过传输复用的比特信息，在客户端和服务器之间建立握手和传输。与以往不同的是，由于MPEG-4码流中包含了很多AV对象，所以一般来说，这些AV对象都有自己的缓冲区，而不仅仅是视频缓冲区和音频缓冲区。

2语法描述

MPEG-4定义了一种语法描述语言来描述AV对象的比特流表示和场景描述信息。这种语法描述语言是C++的扩展，不仅易于表达其AV对象特征，而且易于实现软件仿真和模型验证。与MPEG-4相比，MPEG-1和MPEG-2使用一种类C语言来描述对象，MPEG-4描述语言体现了面向对象的技术来描述对象。

3音频对象的编码

视频和音频的压缩编码仍然是MPEG-4的核心。但与之前的MPEG-1和MPEG-2不同，MPEG-4不仅支持自然声音(如语音和音乐)，还支持基于描述语言的合成声音，支持音频的对象特征。也就是说，在一个场景中，既有人声又有背景音乐，它们可以是独立编码的音频对象。

3.1自然声音编码

MPEG-4研究比较了现有的各种音频编码算法，支持2 ~ 64K自然声音编码。比如采样频率为8 kHz的2 ~ 4 kbit/s的语音编码和采样频率为8或16 kHz的4 ~ 16 kbit/s的音频编码一般采用参数编码；在6 ~ 24 kbit/s的语音编码中，一般采用码激励线性预测(CELP)编码技术；时频(T/F)变换编码技术可用于16 kbit/s以上码率的编码，这些技术本质上借鉴了现有的音频编码标准，如G.723、G.728、MPEG-1、MPEG-2等。图1是MPGE4的可伸缩自然音频编码器的示意图，包括三种编码技术。

3.2合成声音

在合成声音编码中，MPEG-4引入了两种引人注目的编码技术:文本到语音编码和乐谱驱动合成编码。这为网络上的低比特率语音互动游戏铺平了道路。合成语音编码技术实际上是一种基于知识库的参数编码。尤其值得一提的是MPEG-4的乐谱驱动合成技术。在这项技术中，解码器由一种特殊的合成语言驱动——结构化音频管弦乐语言(SAOL)。“管弦乐队”由不同的“乐器”组成。当解码器没有某个“乐器”时，MPEG-4也允许解码器将“乐器”从编码器下载到解码器，以便正确地恢复合成的声音。可以看出，MPEG-4并没有提供MIDI音乐标准中的一套“乐器”，而是提供了一个可以随时扩展的“管弦乐队”，因此其“演奏”的乐谱自然更加丰富多彩。

4视觉对象的编码

类似地，MPEG-4也支持自然和合成视觉对象的编码。合成视觉对象，如2D和三维动画、面部表情动画等。，都是单独编码的，不仅可以有效压缩，而且操作简单。

自然视觉对象的编码仍然是MPEG-4的重点。与静止图像相比，MPEG-4采用零树小波算法提供高压缩比的同时，还提供高达11的空间分辨率和质量的可伸缩性。

对于运动视频对象的编码，MPEG-4采用如图2所示的编码框图来支持图像的编码。

可以看出，MPEG-4引入了形状编码模块来支持基于对象的编码。为了支持高效压缩，MPEG-4仍然采用MPEG-1和MPEG-2中的变换和预测混合编码框架。

对于一般的任意形状的视频对象，MPEG-4编码后的码流结构如图3所示。

对于极低码率的实时应用，如可视电话，MPEG-4视频编码采用极低码率视频(VLBV)核心进行编码，类似于ITU的H.263直接编码矩形视频，不使用形状编码模块。编码码流的结构见图4。

可以看出，MPEG-4采用了与H.263的前向兼容，同时也提供了一些高层的特性，比如基于内容的编码。扩展模式如图5所示。

MPEG-4支持易出错信道传输的健壮性，并提供了更好的同步和错误恢复机制。

5场景描述

场景描述主要用于描述上述单个AV对象在特定的AV场景坐标下是如何组织和同步的。同时也存在AV对象和AV场景的知识产权保护等问题。

6 mpeg-4前景

MPEG-4的应用将是广泛而深远的。该新标准将至少适用于以下场合:

a)实时多媒体监控；

b)非常低比特率的移动多媒体通信；

c)基于内容存储和检索的多媒体系统；

d)互联网/内联网上的视频流和视觉游戏；

e)基于面部表情模拟的虚拟会议；

DVD上的交互式多媒体应用程序；

g)基于计算机网络的可视化协同实验室场景应用；

h)演播室和电视节目。

MPEG系列介绍(2005年5月30日)

MPEG是运动图像编码专家组的缩写。MPEG成立于1988+0年6月，是一个致力于研究和开发数字压缩标准，在保证运动图像质量的前提下压缩传输速率的组织。MPEG的第一次会议于1988年5月召开，有25位音视频编码和压缩方面的专家参加。现在MPEG已经成为每年举行三次例会(3月、7月和165438+10月)的组织，约20个国家200多家公司的350名专家参加。MPEG制定的标准被国际标准组织(ISO)和国际电工委员会(IEC)批准为国际标准，形成MPEG系列。

MPEG-1

MPEG-1在1989年7月开始研究，1992被ISO/IEC批准为官方标准。官方标准号为ISO/IEC 1172，MPEG-1规定运动图像和视频文件可以记录在数字存储介质中。传输速率1.5Mbits/s，每秒播放30帧，CD音质，质量水平基本相当于VHS(广播录像带)。MPEG最高编码速率可达4-5 mbit/s，但随着速率的提高，解码图像质量会降低。音频压缩格式是我们熟悉的MP3格式，它提供了一种独立于视频压缩的音频压缩方法。使用MPEG-1技术最成功的产品是VCD，它作为一种低成本的视频播放设备被广泛使用和推广。MPEG-1用于数字电话网络(如ADSL、VOD和教育网络)上的视频传输。

MPEG-2

MPEG-2是1991年7月研究的，是针对各种应用中标准数字电视和高清电视的压缩方案和系统层的详细规定。1992被ISO/IEC批准为正式标准，正式标准号为ISO/IEC13818。MPEG-2不是MPEG-1的简单升级。MPEG-2在系统和传输方面做了更详细的规定和进一步的改进。MPEG-2可以提供广播视频和CD音质。MPEG-2音频编码可以提供左、右、中和两个环绕声道，以及一个强调低音声道和多达七个声道。MPEG-2的另一个特点是可以提供大范围的可变压缩比，以满足不同画质、存储容量和带宽的要求。MPEG-2特别适用于广播级数字电视的编码和传输，是公认的SDTV和HDTV的编码标准。MPEG-2还规定了多频道节目的复用和解复用方法。此外，MPEG-2还考虑了ATM信元的适配问题。

目前MPEG-2标准分为9部分，其中前6部分统称为ISO/IEC13818国际标准。各部分内容描述如下:

第一部分——ISO/IEC 13818-1，System: System，描述了将多个基本的视频、音频和数据流合成为传输流和节目流的方式。

第二部分-ISO/IEC 13818-2，视频:描述了视频编码方法。

第三部分-ISO/IEC 13818-3，音频:描述了向后兼容MPEG-1音频标准的音频编码方法。

第四部分-ISO/IEC 13818-4，符合性测试，描述了测试一个编码流是否符合MPEG-2流的方法。

第五部分——ISO/IEC 13818-5，软件:描述了MPEG-2标准第一、二、三部分的软件实现方法。

第六部分-ISO/IEC 13818-6，DSM-CC:数字存储媒体-命令和控制，描述了交互式多媒体网络中服务器和用户之间的会话信令集。

第七部分规定不向后兼容MPEG-1多声道音频编码。？

第八部分原计划用于10bit视频采样编码，现已停产。？

第九部分规定了码流的实时传输。

MPEG-2技术是实现DVD的标准技术，用于为广播、有线电视网、有线网络和卫星直播提供广播级数字视频。

MPEG-3

由于MPEG-2的优异性能，可以应用到HDTV(高清电视)中，这使得原本为HDTV设计的MPEG-3在诞生之前就被抛弃了。

MPEG-4

1995年7月开始研究MPEG-4，10月被ISO/IEC批准为正式标准。正式的标准号是ISO/IEC14496，它不仅针对一定码率下的视音频编码，更注重多媒体系统的交互性和灵活性。该标准主要用于可视电话、可视电子邮件等。要求传输速率低，4800-6400比特/秒，分辨率176 * 144。MPEG-4使用非常窄的带宽，通过帧重构技术和数据压缩，以最少的数据获得最好的图像质量。利用MPEG-4的高压缩率和高图像再现质量，可以将DVD中的MPEG-2视频文件转换为更小的视频文件。经过这种处理后，图像的视频质量并没有大幅度降低，但体积却可以缩小几倍，所以用CD-ROM保存DVD上的节目很方便。此外，MPEG-4在家庭摄影和视频录制以及网络实时视频播放中也非常有用。

MPEG-7

MPEG-7(它的由来是1+2+4=7，因为没有MPEG-3，MPEG-5，MPEG-6)在1996+00开始学习。确切的说，MPEG-7不是一种压缩编码方式。它的正式名称是‘多媒体内容描述接口’。它的目的是产生一个描述多媒体内容的标准。该标准将为信息含义的解释提供一定的自由度，信息含义可以传输到设备和计算机程序，也可以由设备或计算机程序访问。MPEG-7不是针对某个特定的应用，而是针对MPEG-7所标准化的画面元素，会支持尽可能多的应用。建立MPEG-7标准的出发点是通过很多参数对图像和声音进行分类，查询它们的数据库，就像我们今天查询文本数据库一样。它可以应用于数字图书馆，如图像编目、音乐词典等。多媒体查询服务，如电话号码簿；选择广播媒体，如广播和电视频道；多媒体编辑，如个性化电子新闻服务、媒体创作等。

MPEG-21

MPEG在1999年6月的MPEG大会上提出了“开放核心”的概念，19年2月的MPEG大会确定MPEG-21的正式名称为“开放核心”或“数字视听框架”，旨在集成标准以支持协调技术和管理多媒体商业，目的是了解如何集成不同的技术。

在数字化趋势越来越明显的今天，MPEG专家将为我们带来新的MPEG系列，解决数字化道路上不断出现的问题。