摘 要: MPEG4 是国际标准组织制定的多媒体通信的标准, 文中概述了MPEG4 的背景, MPEG4与MPEG1 , MPEG2 的主要区别以及MPEG4 的主要技术。最后, 展望了MPEG4 的应用前景。
关键词: MPEG4 ; 视频对象平面
MPEG4 video compression coding technology and its application
ZHAO Wei , Askar
(Department of Electron. Xinjiang University ,Urumqi 830046 ,China)
Abstract : The MPEG4 standard is worked out for multimedia communications by ISO. This paper deseribes the background of MPEG4’s appearance , the basic structure of MPEG4 , the main differences between MPEG4 and MPEG1P2 , the key technology of MPEG4. Finally , it forecasts the foreground of its application.
前言
解决视频、音频数字化后数据量大与数字存储媒体和通信网容量小的矛盾的主要途径之一就是压缩。为此,国际标准化组织先后于1993 年和1995
年制定了视频、音频编码的国际标准MPEG1 和MPEG2。MPEG1 ,MPEG2 技术当初制定时,它们定位的标准均为高层媒体表示与结构,但随着计算机软
件及网络技术的快速发展,MPEG1 ,MPEG2 技术的弊端就显示出来了:交互性及灵活性较低,压缩的多媒体文件体积过于庞大,难以实现网络的实时传播。因此,制定出了新的多媒体通信标准MPEG4。
1 MPEG4 与MPEG1 ,MPEG2 的比较MPEG1 ,MPEG2 都是采用第一代压缩编码技术,着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动补偿和编码。这种编码存在以下缺陷:
(1) 将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效应,即马赛克效应;
(2) 不能对图像内容进行访问、编辑和回放等操作;
(3) 不能充分利用人类视觉系统(HVS ,HuamanVisual System) 的特性。
MPEG4 代表了基于模型P对象的第二代压缩编码技术,它充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。MPEG4 为支持基于内容编码而提出了AV(AVO , Audio Visual Object) 对象的概念,在MPEG4中所见的视音频已不再是过去MPEG1 ,MPEG2 中图像帧的概念,而是一个个视听场景(AV 场景) 。不同的AV 场景由不同的AV 对象组成,AV 对象是听觉,视觉或视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音,图像。原始AV 对象具有高效编码,高效存储与传输以及可交互操作的特性,它又可进一步组成复合AV 对象。因此,MPEG4 标准的基本内容就是对AV 对象进行高效编织,组织,存储与传输。MPEG4B 不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的寸取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用。
2 MPEG4 的关键技术
2. 1 视频对象提取技术
MPEG4 实现基于内容交互的首要任务就是把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。目前,进行视频对象
分割的一般步骤是:先对原始视频P图像数据进行简化以利于分割,可以是颜色、纹理、运动、帧差、位移帧差及至语义等特征;再基于某种均匀性标准确定分割决策,根据所提取特征将视频数据归类;最后进行相关后处理,以实现滤除噪声及准确提取边界。
2. 2 VOP 视频编码技术
视频对象平面(VOP , Video Object Plane) 是视频对象(VO) 在某一时刻的采样,VOP 是MPEG4 视频编码的核心概念。MPEG4 在编码过程中针对不同
VO 采用不同的编码策略,即对前景VO 的压缩编码尽可能保留细节和平滑;对背景VO 则采用高压缩率的编码策略,甚至不予传输而在解码端由其他背
景拼接而成。
2. 3 视频编码可分级性技术
视频编码的可分级性(scalability) 是指码率的可调整性,即视频数据只压缩一次,却能以多个帧率,空间分辨率或视频质量进行解码,从而可支持多种
类型用户的各种不同应用要求。MPEG4 通过视频对象层(VOL , Video Object Layer) 数据结构实现分级编码。MPEG4 提供了两种基本分级工具,即时域分级( Temporal Scalability) 和空域分级(Spatial Scal2ability) ,此外还支持时域和空域的混合分级。每一种分级编码都至少有两层VOL ,低层为基本层,高层为增强层。基本层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨率和细节。
2. 4 运动估计与运动补偿技术
运动估计方法主要有像素递归法和块匹配法两大类,前者复杂度很高,实际中应用较少,后者则在H. 263 和MPEG中广泛采用。在块匹配法中,重点研究匹配准则及搜索方法。目前有三种常用的匹配准则:
①绝对误差和(SAD , Sum of Absolute Difference)准则。
②均方误差(MSE , Mean Square Error) 准则。
③归一化相关函数(NCCF , Normalized Cross Cor2relation Function) 准则。
在选取匹配准则后就应进行寻找最优匹配点的搜索工作。因此采用的快速搜索法,主要有交叉搜索法,二维对数法和钻石搜索法。MPEG4 采用I -VOP ,P - VOP ,B - VOP 三种帧格式来表征不同的运动补偿类型。它采用了H. 263中的半像素搜索(half pixel searching) 技术和重叠运动补(overlapped motion compensation) 技术,同时又引入重复填充( repetitive padding) 技术和修改的块(多边形) 匹配(modified block matching) 技术以支持任意形状的VOP 区域。同时,为提高运动估计算法精度,MPEG4 采用了MVFAST (Motion Vector FieldAdaptive Search Technique) 和改进的PMVFAST( Pre2
dictive MVFAST) 方法用于运动估计。对于全局运动估计,则采用了基于特征的快速顽健的FFRGMET(Feature - based Fast and Robust Global Motion Estima2tion Technique) 方法。此外,sprite 视频编码技术也在MPEG4 中应用广泛,sprite 又称背景全景图,是指一个视频对象在视频序列中所有出现部分经拼接而成的一幅图像。利用sprite 可以直接重构该视频对象或对其进行预测补偿编码。
3 MPEG4 的应用领域
①实时多媒体监控;
②极低比特率下的移动多媒体通信;
③基于内容存储和检索多媒体系统;
④InernetPIntranet 上的视频流与可视游戏;
⑤基于面部表情模拟的虚拟会议;
⑥DVD 上的交互多媒体应用;
⑦基于计算机网络的可视化合作实验室场景应用;
⑧演播室和电视的节目制作;
⑨硬件产品上的应用。
4 结束语
MPEG4 标准的应用将涉及到许多相关领域的研究和发展,它所提供的高效压缩,基于内容的交互等特性使得它在未来的多媒体应用中将扮演重要的角色。随着MPEG4 标准的公布,语音,图像和文本等多媒体信息可以通过统一的规范来描述和交流,同时各种信息的分析和合成的研究也将促使MPEG4 标准更快地走向实用化。