寻求信息论和学习编码的经验

学习信息论与编码的思考

多媒体信息是未来人类获取信息的最重要载体,因此它已成为当前世界技术发展和研究的热点。作为多媒体信息中最受关注、数据量最大的成员,视频信息现在正面临着一场意义不亚于模拟到数字的技术进步和创新:从传统的矩形DCT变换编码,到分别基于视频内容、对象划分和变换编码的新编码方法。

第一,传统的编码方法

传统的视频编码以视频信号的数字量为编码对象,与视频信息的内容无关。无论是M-JPEG、MPEG-1还是MPEG-2,都是以DCT矩形变换块为变换编码单元,对DCT块中图像的亮度和色度进行采样,提取像素。基于参考帧的内DCT编码,使用帧间编码和运动估计技术来预测DCT块中图像的像素特性。基于矩形DCT编码的视频编码只考虑了信号数据处理的需要(如小比特率便于传输,高比特率保证质量),而没有考虑视频信息——图像内容本身的意义和重要性,以及视频信息使用者的主观需求(如某些内容的提取功能)。再说这种贱?quot块压缩算法在低码率下容易产生“块效应”和“帧提取”,大大缩小了视频信息的应用领域。

小波变换是一种新的变换编码方法。与DCT变换相比,它考虑到了视频信号对不同应用环境(不同清晰度和比特率)的适应性,可以将基本图像层与增强图像层分开进行编码和传输。用户可以根据实际情况选择是否打开增强图层。但无论用户选择是还是否,传输的视频信息都是一样的。

第二,基于内容对象的编码

1、VO和VOP概念介绍

传统的视频编码方法是将整个视频信号作为一个单一的内容,不可分割,这与人类对视觉信息的判断规律,即大脑对视神经引入的视觉信号的处理方式完全不同。这就决定了我们不可能完全从视频信号中提取出一个视频信息,比如把一个有logo和字幕的视频还原成一个没有logo和字幕的视频。解决问题的唯一途径是在编码时区分不同的视频信息载体——视频对象(VO),并独立传输,将图像序列中的每一帧视为由不同的VO和运动背景组成。VO可以是一个人或事物,也可以是计算机生成的2D或3D图形。VO具有音频属性,其属性赋值是可能的。quot是或否。但音频的具体内容数据与视频编码和传输无关。VO概念的引入更符合人脑对视觉信息的处理方式,使视频信号的处理方式从数字化向智能化进步。它提高了视频信号的交互性和灵活性,使更广泛的视频应用和更多的内容交互功能成为可能。

现代图像编码理论指出,人眼捕捉图像信息的本质是“轮廓-纹理”,即人眼对VO的某些表面特征感兴趣,如形状、运动、纹理等。VO的表面往往是不规则的,千变万化的,但从某个角度来看,它可以看作是N个具有规则形状和一定纹理的截面组合的连续运动,这些截面的组合称为VOP(Video Object Profile,VOP)。VOP从某个视角描述了虚拟现实的表面特征。VOP编码主要由两部分组成:一部分是形状编码,另一部分是纹理和运动信息编码。VOP纹理编码、运动预测和补偿原则上与MPEG-2基本一致,而形状编码技术则首次应用于图像编码领域。

2.新编码技术

合成VO的独立编码在过去,2D或3D动画被视为视频的一部分,它一直被视为视频。事实上,根据合成VOs的合成机制和特点,大多数合成VOs都可以用多种关于图文的通用表达式来描述。非复杂复合VO将被编码为独立于视频的数据类型,并定义了其描述框架、通用数据流结构和灵活接口。复杂合成VO和自然VO的编码方式将采用以下编码方式。

考虑到与现有标准的兼容性,基于矩形窗口的VOP分割仍然采用目前已经应用的VO编码技术中基于矩形窗口的内容分割方法,如MPEG4。编码时,首先利用像素特征统计将每个VOP限定在一个矩形窗口内,称为VOP窗口。窗口选择的原则是:长和宽都是16像素的整数倍(方便兼容现有标准和未来扩展),同时保证VOP窗口中非VOP宏块的数量最少。目前标准中的视频帧可以认为是没有VOP的特例,在编码过程中屏蔽掉形状编码模块就足够了。在VOP窗口中,VOP部分的形状也是8×8像素的矩形。对于不同的VOPs,根据不同的应用和运动变化的特点,可以采用固定或可变的VOP帧率(即VOP刷新频率)。

矩形窗口分割方法不能反映VOP的具体形状信息。为了用矩形窗口分割法确定VOP的形状信息,引入了形状编码技术。事实上,形状编码并不是一项新技术。它在计算机图形学和计算机视觉领域有着广泛的应用。当前视频编码标准中的位图技术实际上是形状编码的一个简单特例。位图以矩阵的形式表示二进制(0或1)形状信息,编码效率高,计算复杂度低。VOP的形状信息有两种:边缘信息和灰度信息。边缘信息用0和1表示VOP的形状,0表示非VOP地区,1表示VOP地区。对于具有一定透明度的VOP地区,透明度可以用灰度信息来表示(范围从0到255),其中0表示完全透明,255表示完全不透明。对于模糊边缘部分,可以看作是周围已知VOP区域的灰度值到零值的灰度信息的过渡区域,其形状信息可以用插值法确定。

基于小波变换的VOP分割基于矩形窗口的VOP分割仍然存在“块效应”问题,而基于小波变换的VOP分割可以很好地解决这个问题,并且由于这种分割方法本身包含了VOP的形状信息,所以不需要对形状信息进行判别和编码。基于小波变换的VOP分割方法是目前视频编码最活跃的研究领域,各种算法不断发表,但基本上可以分为两类:

1.利用图像灰度特征进行分割:不同的图像有不同的灰度分布。利用小波变换,将图像变换到小波域,生成各层和各子带的图像。小波变换后,大部分能量集中在低频子带图像中,即大面积平均灰度区域信息主要体现在低频子带图像中。根据信息论原理,通过确定多个灰度阈值,可以从低频子带图像中分离出不同灰度级的VOP。同时,利用高频子带图像和模糊数学模型确定每个VOP的边缘信息。基于图像灰度特征分割的小波变换是沿扫描方向的单向变换。

2.利用图像纹理特征进行分割:纹理是局部特征重复的结果,反映了图像的局部频域信息。对于一幅数字图像,进行多方向小波变换是可行的,比如对一帧进行垂直或对角小波变换。经过各种小波变换,可以得到不同方向的子带图像,每个子带图像包含不同纹理的局部光谱信息和纹理趋势信息。对光谱特征相同的图像部分进行聚类分析,根据纹理光谱和纹理趋势确定聚类的纹理边缘。根据信息论和运动估计的原理,对具有相关性的运动矢量的聚类再次分类到不同的对象(VOP)中,并以不同的灰度显示。多级小波变换的结果最多可以线性映射成0 ~ 255灰度显示。小波变换的方向越多,每个方向的夹角越小,图像分割越准确,但计算量也迅速膨胀。根据局部纹理中心频率的变化,自适应地选择小波变换的级数和方向,有助于实现图像分割精度和计算量之间的平衡。本文前面提到,人眼捕捉图像信息的本质是什么?quot轮廓-纹理”,因此基于多方向小波变换的图像特征提取和纹理图像分割方法符合人类视觉生理特点,是纹理图像分析的一个重要发展方向。

无论哪种方式,在获得不同VOP的不同灰度表示后,通过类似于关键技术的多通道处理,可以获得多个原始彩色VOP。目前实验表明,基于小波变换的图像分割在边界上还是有点模糊,但总体效果还是比较令人满意的,达到了分割纹理图像的目的。

VOP运动信息编码和运动补偿当人眼观看一幅图像时,它会自动跟踪人们感兴趣的VOP。也就是说,人们看到的不是时间轴上的信息,而是光流轴上的信息,VOP的轨迹。光轴是运动图像上VOP上一点的轨迹,在不同的帧中位于不同的空间位置。它的意义在于,VOP本身的所有变化都会被映射到光轴上的一个点上。对光流轴信息进行独立编码会带来很多好处:(1)编码时,对于刚性VOP,由于它在运动过程中不会改变形状和纹理,所以VOP只需要完成一次采样和编码,之后它只需要发出几个运动矢量来表示它的光流轴;对于非刚性VOP,只需要在变化时进行重采样和编码,使得不同的VOP采用不同的VOP帧率成为可能,将编码后的数据速率降到最低。(2)VOP在运动中的各种变化都会在光轴上留下痕迹。在进行运动补偿时,比如不同格式之间的转换或者慢动作制作时,可以根据光轴映射信息,通过插值的方法得到时间轴上某一点的VOP状态,从而达到无损转换的目的。(3)在时间轴上,简单叠加一个图像序列的两个信号,图像的噪声和运动部分就不会被增强;如果信号叠加在光轴上,运动图像的降噪问题就简单解决了。

VOP的运动估计是指分析两帧或多帧中的VOP,确定光流轴,以判断VOP在下一帧中可能的位置。VOP的运动补偿是指根据VOP光轴的方位和VOP本身在光轴上的变化所获得的映射信息,修正VOP在时间轴上的运动矢量。运动预测和运动补偿技术可以从图像信息中去除时间冗余分量,并且VOP的运动信息编码可以被视为从像素到具有任意形状的VOP的扩展。

纹理编码在已经实际应用的MPEG-4中,VOP的纹理编码仍然采用基于8×8像素块的DCT方法,有三种模式:帧内编码模式(I-VOP)、帧间预测编码模式(P-VOP)和帧间双向预测编码模式(B-VOP)。编码时,对完全位于VOP的像素块采用经典的DCT方法;对于完全在VOP之外的像素块,不执行编码;对于部分在VOP、部分在VOP之外的像素块,先用图像填充技术获取VOP之外的像素值,再进行DCT编码。

基于视觉特征的纹理编码还处于理论研究阶段,其目标是建立一套常见纹理的局部特征符号,定义一种多媒体语言来描述纹理的分布和趋势。以人脸为例:人脸定义参数(FDP)描述了特定人脸纹理形状模型与一般人脸模型的区别。通过接收到的FDP,可以将通用人脸模型转换成由其形状和纹理确定的特定人脸。面部动画参数(FAP)描述了特定面部表情和中性表情之间的变化关系。通过接收到的FAP,可以生成与声音同步的各种面部表情和嘴唇运动。这样的合成编码不仅可以大大提高编码效率(可以获得1kbps的超低比特率),还可以为制作新面孔等物体提供方便。

分层编码多媒体应用具有不同的信道带宽、处理能力、显示能力和用户需求,要求在解码端支持时域、空间和质量的可伸缩性,即分层编码。分级编码可以通过数据结构VOL(视频对象层(VOL))来实现。每个分级编码至少有两层VOL,下层称为基本层,上层称为增强层。空间可伸缩性可以通过增强层增强基本层的空间分辨率来实现,因此必须在解码增强层中的VOP之前解码基本层中的相应VOP。同样,对于时间可伸缩性,视频序列中某个VO(尤其是运动VO)的帧率可以通过增强层来提高,使其比其他区域更平滑。

三、新的技术标准——MPEG 4

第一次采用VO编码技术的视频编码标准是MPEG-4。MPEG-4正式成为国际标准(标准号为ISO/IEC 14496)始于1999。在后续版本1999中,增加了可变形半透明视频对象及其工具的高级功能,进一步提高了编码效率,并向后兼容第一个版本。

1和MPEG-4标准的组成

1)DMIF(delivery多媒体集成框架):多媒体传输的总体框架协议。MPEG-4标准将众多多媒体应用集成到一个完整的框架中,旨在为多媒体通信和应用环境提供灵活的算法和工具,实现音视频数据的有效编码和更加灵活的访问。它解决了许多领域多媒体应用的个性化交互操作问题。

2)解码器:定义了MPEG-4系统的特殊解码模式(SDM),需要特殊的缓冲区和实时模式。

3)音频编码:支持自然声音和合成声音,支持音频的对象特征。

4)视频编码:支持自然和合成的视觉对象,包括2D、3D动画和面部表情动画。

5) BIFS(用于场景描述的二进制格式):关于一组VO的时空结构的参数信息,主要描述特定背景下VO的相互关系和同步性,以及VO及其背景的知识产权保护。BIFS和VO对象特征信息的编码和传输相对独立。场景描述信息的编码和独立传输是实现用户端编辑操作的关键:解码后,场景合成前,用户可以通过重置BIFS参数对VO进行各种编辑操作,如加、减、缩放、平移甚至一些特效。

下表反映了MPEG系统的一些技术指标。MPEG-4是一种高速率的有损压缩(比如一个9 GB的DVD视频被压缩复制到一个只有700MB空间的光盘上),其画质永远无法和MPEG-2相比。当MPEG-4和MPEG-2的比特率输出相同时,其质量仍然略逊于MPEG-2。同时,MPEG-4对硬件要求更高。事实上,我们注意到MPEG-4在保证令人满意的图像质量的同时,更注重较低的数据速率和灵活的交互功能。

2.MPEG-4编码器

MPEG-4编码的简化示意图如图1所示。

对于输入的视频序列,通过分析确定N个视觉对象为编码对象,它们被标识为N个VOs (n = 1,2,3...).对每个VO进行编码后,形成该VO的VOP数据流。VOP的编码包括运动(使用运动预测方法)和形状与纹理(使用变换编码方法)的编码。由于VOP具有任意形状,这就要求编码方案能够处理形状和透明度信息,这是与现有的只能处理矩形帧序列的视频编码标准的根本区别。在MPEG-4中,矩形帧被认为是VOP的一种特殊情况。此时的编码系统不需要处理形状信息,退化为类似MPEG-1和MPEG-2的传统编码系统,同时也兼容现有标准。除了VO图像背景的其余部分,仍然使用传统的矩形DCT变换编码;VO场景描述信息(VO本身的信息,如VO对象的知识产权,VO与VO之间的位置和逻辑关系等。)也要进行编码,最后和VOP流、背景一起送到MPEG-4帧合并器,生成MPEG-4流输出。

需要指出的是,VO分割后,每个VO需要一个VOP编码通道,图1中只画了一个。多个VOP帧发生器的输出可以在MPEG-4帧组合器中灵活地多路复用或同步传输,以适应各种传输环境和要求。MPEG-4解码是上述编码过程的逆过程。可以看出,与背景无关的VO编码可以实现接收端用户对VO对象的选择性操作。

3.MPEG-4视频编码的功能和特点

MPEG-4标准的制定有两个目标:低比特率多媒体通信和多行业多媒体通信的融合。也就是说,MPEG-4遵循编码工具的灵活框架,设计开放的编码系统,针对不同的应用采用不同的编码算法,以达到低比特率通信的目的。MPEG-4解码器是可编程的,相应的解码信息可以与内容本身一起传输和下载。与现有的MPEG-1和MPEG-2视频压缩相比,MPEG-4视频有一些重要的改进:

1)基于内容的交互功能:MPEG-4提供了一种全新的交互模式。根据制作者的具体自由度,可以实现对多媒体VO在时域上的随机访问(从不同来源获取内容或向不同来源发送内容)、快速搜索、改变场景的视角、改变场景中物体的位置、大小和形状,或者在有限的时间内替换甚至清除物体。

2)支持自然和合成信息的混合编码(NHC): MPEG-4支持合成信息的编码,可以参数化合成VO及其活动信息。对于频繁出现的视觉对象,分别定义了它们的纹理形状和动画参数。

3)高效编码:包括视频VO数据的高效编码和多个并发数据的有效同步编码。

4)基于内容的可伸缩性:指分层编码后基于内容的纹理、图像、视频的可伸缩性,以及视频序列中时域、空间、质量的可伸缩性,表现为实时或非实时的时域、数据速率、重建图像质量。

5)可变的最终输出:不同的码率意味着支持不同的功能集。最底层的功能集是VLBV(Very Low Bit Rate Video),为最低5-64kbits/s的视频操作和应用提供算法和工具,支持低空间分辨率(352×288像素以下)和低帧率(15Hz以下)。VLBV的核心功能包括:矩形图像序列的有效编码,多媒体数据库的搜索和随机存取。MPEG-4的HBV(高比特率视频,范围从64千比特/秒到4兆比特/秒)也支持上述功能,但它也支持高空间和时间分辨率。它的输入可以是ITU-R 601的标准信号,所以它的典型应用是数字电视广播和交互式检索。

与MPEG-1和MPEG-2相比,MPEG-4更适合交互式AV服务和远程监控。MPEG-4是第一个允许用户操作的视频编码标准。MPEG-4的特性非常适合互联网上的交互式视频业务:可以适应各种应用终端的物理网络环境,实现视音频内容的交互操作,具有下载解码能力(在一定硬件的基础上,可以下载解码工具对不同编码方式的内容进行解码)。MPEG-4的设计目标还具有更广泛的适应性和扩展性:互联网多媒体应用、交互式视频游戏、实时可视通信、交互式存储媒体应用、广播电视、演播室技术和电视的后期制作、多媒体内容存储和检索、具有面部动画技术的虚拟会议、移动通信条件下的多媒体应用、可视协同实验室场景应用、远程视频监控、通过ATM网络的远程数据库服务等等。

从矩形框到VOP,MPEG-4顺应了现代图像压缩编码的发展趋势,即从基于DCT的传统编码向基于对象和内容的现代编码转变。从这个意义上说,MPEG-4视频编码技术在图像编码史上翻开了新的一页。

四。MPEG 4视频产品

在2001 NAB展会上,很多公司都推出了自己的MPEG 4产品。Amnis公司推出了基于IP平台的MPEG-4视频流技术,并展示了可以回放MPEG-1、MPEG-2、MPEG-4的桌面软件。Envivo展示了他们的MPEG2网络或MPEG2节目数据广播端到端解决方案。该方案是纯软件,支持视频、音频和合成2D动画的MPEG-4编码,并保护MPEG-4文件的版权。Optibase公司推出的MGW系列是一款插件式多路流媒体服务器系列,可以插入不同的编码模块以满足不同的需求,其中MGW 4000是一款支持MPEG4(兼容MPEG1和MPEG2)的流媒体服务器。Optibase还推出了一个支持多媒体和交互式MPEG4-4流的IP实时编码和分发平台。最后,Optibase演示了从MPEG 1到MPEG 4的实时转码技术。飞利浦提供从制作到播放的端到端在线MPEG-4解决方案,包括交互式内容编辑器(支持在线MPEG-4视频流的搜索、编辑和剪辑)、实时软件MPEG-4编码器(甚至支持简单视频和AAC音频的无线编码)、通用多点分发IP平台和解码软件(WebCine' player支持Win95、Win2000和nt操作系统;WinCE用于便携式计算机;Trimedia是在线广播机顶盒)。SUN还推出了他们的通用MPEG-4流媒体服务器。

微软还在其当前的WIN98和WIN2000操作系统中增加了一个名为Divx的MPEG-4播放器。它可以播放MPEG-4文件。AVI后缀。Divx可以附加在MPEG-4数据流上,可以设置满足不同的使用需求。Divx视频编码技术由微软MPEG-4V3修改而来,采用MPEG-4压缩算法,打破了ASF的各种协议。但是,MPEG-4毕竟是一种高速率的有损压缩,画质永远比不上DVD的MPEG-2。即使在MPEG-4的码率和DVD差不多的情况下,整体效果还是差得很远(在杂乱的细节中略显模糊)。因此,目前的MPEG4-4只能面向娱乐和欣赏市场。

市面上首款DIVX-MPEG4-4格式的DVD《活火与熔城》,片长98分钟,512×288 16:9格式,帧率24帧/秒,64KB立体声音频。影片以720×480 16:9 30帧/秒的速度从MPEG2-2系统转录并刻录在一张CD上。

六、结尾

在本文的最后,作者还想说一些与本文相关的解释性的话。由于工程实现、商机和市场的原因,我们所取得的工程技术成果往往落后于科学家已经掌握并可以轻易获得的实际前沿科技成果。MPEG-4标准是多重因素的结果,不考虑与现有产品的兼容性,它可以做得更好。

VOP编码是视频信号处理技术从数字化走向智能化的初步研究。此外,依托VOP技术,模式识别技术已经从符号识别进入到更新图形识别领域。数据显示,这种研究进一步接近了人类大脑处理视觉信息的方式。人类将永不停息地揭示大自然的无限奥秘,也将更加深入地探索人类。