MPEG-2基本问题(I) DV OnLine.数码视频在线数字摄像机数字视频处理视频采集卡编辑软件

面向广播行业和后期制作工程师MPEG-2基本问题
------视频和网络部分白皮书
介绍

本文将探讨MPEG-2标准规定的数字化视频表达方式，并将研究关于新近采纳的主级中4：2：2 类的一些关键性问题。特别的，我们将研究这一新类的基本原理，以及它为广播行业和后期制作部门带来的益处。

本文的目的是要明确不同的MPEG类和级的适当应用场合，展示新的4：2：2类的必要性。我们也将谈及标准所要求的编／解码器兼容性问题，对于4：2：2视频表现能力日益增强的需求，以及主级中4：2：2类是如何使MPEG-2高效率地发挥其优势的。主级中新的4：2：2类最近己成为MPEG标推的一个正式组成部分。广播和后期制作行业的人士无法接受以前的MPEG-2主级中各类所提供的低色度带宽选择，而主级中的4：2：2类，对于提供高质量的MPEG压缩视频，将被证明是个等待己久的解决方案。 Tektronic的观点是50年仪器，广播和视额设备设计历史的结晶，也是我们在成功帮助MPEG-2 标准朝着提供新的，高效率的广播质量视频节目发展的过程中的产物。在接下来的文章中，我们将分享这些观点和经验：在这一过程中，我们希望对于各位成功的将这一令人激动的新科技用于未来的采集，存储，传输及后期制作系统能够有所帮助。

视频压缩基本概念

背景知识

在过去的几年里，关于视颇压缩的争论己成为—个极其热门的话题，但有趣的是，视频信号的压缩并不是一个新问题。许多人并没有意识到，伴随着1950年代彩色电视的引入，视频压缩第一次商品化了。三幅分别显示红，蓝，绿的最高分辨串的图象，共占用15MHZ的总带宽；但被压缩成一路仅占5MHZ的复合信号——3：1的带宽压缩率被引入了。这种方式虽然简单，但毕竞是压缩了。当然，这种早期的压缩方式是通过模拟技术实现的。今天，更稳定连续的图象质量，更高的压缩串可以通过把模拟信号转换为数字信号，利用一些高度复杂的技术来完成的。这些技术最终带来了更高的压缩效串和更精细的压缩图象处理方法。这些数字技术需要极为强大的计算能力，直到最近在经济上仍然是不可行的。然而，今天，情况有了变化。

压缩基本上是这样一个过程：通过梢除存在于视频信号里的冗余成分，来减少图象或图象组的内容信息。

一般地讲，数字视频压缩是从分量视频表达开始的，此时信号是以一个亮度分量，两个色度分量来表达的。最广为接受的数字分量视频格式就是Rccommendation601，该建议使用了“共结点”模型的4：2：2采样结构。所谓“共结点”，是指每个彩色象素点由3个采样来描述：一个亮度采样，两个色差形成的色度采样。因为这三个采样在时间上是重合的，所以称作“共结点”。在525行的系统中，每帧有483个有效行，每行有720个象素点；在625 行的系统中，每帧有576个有效行。

通过色度--亮度采样的结合，在不损害图象质量的同时，减少所需带宽得以实现。4：2：2中的“4”是指4倍于分量数字系统中采用的副载波采样频率。有趣的是，亮度采样频率实际上是13.5MHZ：数字“4”的使用只是在考虑14.3MHZ NTSC采样频率是遗留下来的历史问题。13．5MH2的采样频率是——个折衷的选择，只是因为它相对525和625线的系统都有整数关系。采样方式中的“2”是指色差信号Cb，Cr其采样频率刚好是亮度采样频率的一半(6．75mhz)。人限亮度分辨能力的特点使得这种对分采样频率的方法能够使用：大范围的心理视觉测试己证实，对于诸如色键等要求苛刻的后期制作类应用环境，6.75MHz的采样频率所能达到的色度已经足够了。

压缩基本上是这样一个过程：通过消除存在于视频信号里的冗余成分，来减少图象或图象组的内容信息。这可以通过分析视频信号的统计预知性来实现。信号的主要部分是有一定的可预知性的。一个极端的例子是正弦波信号，它有高度的可预知性，因为每个周期都是相同的，且只有一个颠率，这样就不需占用带宽。另一个极端的例子是，噪声信号完全不可预测。当然，实际上所有的信号都界于这两者之间。压缩技术总的来说就是要识别并去除这些冗余，从而减少存储量和所需带宽。

视额应用中对压缩，减少数据量或者数据传输率的要求可以归纳为以下两种基本要求：

1),在已存在的基础中加入新的功能。彩色电视就是一个好例宁。它面临的挑战就是将附加信息(色彩)整合进已存在的黑白信号中。

2),经济利益。在通信领域，数据链接的花费通常是与数据传输串成正比的。因此，压缩系数越高，花费就越低。同时，减少的存储花费构成了压缩技术经济上的另一个优势。

色度亚采样的进一步知识
对表示色度的色差信号进行亚采样经常用于减少数据密度，4：2：2是—个明显的例子．它充分利用了人眼对于亮度变化的敏感程度要强于色度变化这一特点。在减少带宽的努力中这已经不是新核念了。它最初的应用要回顾到1950年代早期的NTSC和PAl复合信号标标准。在这些复合信号标准体系中，两个色差倍号的分辨串带宽被减少到大约1MHz。类似的带宽降低方法也被皮用到一些早期的数字效果单元上。这些设备使用4：1：1的采样格式，其中采样仍是共结点的，但色差信号的采样频串只是亮度信号的四分之一。垂直亚采样可以达到与4：1：1相同的降低色度数据密度的效果，这时的目标就是沿水平和垂直方向把色度分辨串降低相同的数量。在4：2：0的采样中，来自一场中相临两条扫描线的色度采样经内插处理，生成一个单独的色度采样，它在空间上位于原始采样之一和相反场中对应扫描线上相应位置的正中。所谓对应扫描线是指，相反场中，在空间上位于当前场中被采样的两条扫描线之间的那条扫细线。图3中的实心箭头搀出扫描线n和n+2的采样经过内插处理生成了位于扫描线0和n+1之间的新采样。 ’ 4：2：0采样有许多的缺点。首先，由于使用隔行扫描已经损失了垂直分辨率，其次，色度采样的垂直内插很复杂，还要求自适应滤波，达经常导致图象质量没有4：1：1的令人满意，多代(multi-generation)性能不佳,最后，利用垂直亚采样在水乎和垂直两个方向上同等程度地降低色度分辨串这一想法本身就有其根本性的缺陷：它并未考虑在水平和垂直两个方向上采样密度的差异。表1总结了这些针对不同视频格式的采样密度，包括NTSC和PAL．

如果目的是最终使用诸如NTSC和PAL的复合信号标淮来传送信号，那么4：2：0是最糟糕的可能选项。

显而易见，4：2：O并没有在两个方向上同等程度地降低色度分辨率．注意到水乎分辨率和垂直分辨率3：1的比例就很容易得出这个结论。即使在引入4：3的长宽比之后，水平垂直分辨串的比值仍是2.25：1。显然，4：1：1的采样结构更能够在两个方向上提供平衡的分辨率．如果目的是最终使用诸如NTSC或PAL的复合信号标准来传送信号，那么4：2：0是最糟糕的可能选项。它提供比NTSC或PAL都要高的水平分辨率，因此它提供的垂直色度分辨率比这些复合信号标准所提供的要差得多。4：2：0的使用对水平和垂直色度分辨率都将造成损伤．

压缩过程

压缩基本上是这样一个过程：通过消除存在于视频信号里的冗余成分，来减少图象或图象组的内容信息。概括地说，压缩技术就是试图识别冗余内容，再从比特流中除去大量的此类成分。

用DCT识别冗余

对于许多压缩系统，第一步工作就是识别存在于视频信号的每帧每场中的空间冗余，这是通过对整幅图象做DCT(离散余弦变换)来完成的。DCT是一个无损的，可逆的数学过程，它把空间幅度数据转化为空间频率数据。在用于视频压缩时，这一运算过程是以亮度采样和相应的色差采样构成的8*8点的块为单位进行的。(图4)左上角的DCT系数反映块的DC(直流)分量，位于既分量下方的系数代表着逐渐增高的垂直空间领率，位于DC分量右侧的系数代表看逐渐增高的水平空间频率，其他系数则代表垂直水平空间频串的不同组合。由于视频图象的自然属性，DCT变换经常使代表较高空间频率的DCT系数的值很小。类似的，由于人类视觉分辨串的特点，许多非零，代表较高空间频率的可以很粗糙地定义(也就是用较少的比特来表达)或完全弃之不用，也不会引起明显的图象劣化。DCT变换并不能减少数据量，事实上，为了达到可逆和无损，必须使用更多的有效比特(有效数字)来确保计算过程中没有进位错误。

帧内压缩

实际的压缩是从减少空间冗余开始的，通过帧内压缩来实现。帧内压缩使用有损和无损过程的组合来减少一幅图象的数据量。它并不使用来自过去或未来图象的任何信息。谓注意，这里是故意使用“图象(picture)”这个词的。一些压缩技术，比如MPEG，允许把一场或一帧作为基本图象。对于以场为单位的例子，场内编码将使每帧生成两幅“图象”。这就是在讨论视频压缩时，为什么用“图象”而不用“帧”这个词的原因。

量化

MPEG比同等图象质量的Motion JPEG(运动JPEG)的压缩效率高出10-20%。

除了在4：2：2到4：2：0的转化过程中丢失了有限数量的信息以外，MPEG的压缩能力来自对DCT 系数灵活的量化过程。简单地讲，量化就是减少描述各系数的比特数的过程。量化中可能会用多达11个比特来表示DC分量的系数，但用少得多的比特来表示较高阶的系数．对于每个宏块(macroblock 16点*16点)或更大的宏块组，可以指定不同的量化间隔。这种能够针对每个宏块使用不同量化因子的能力，使得只进行帧内处理的MPEG比同等图象质量的Motion JPEG(运动JPEG)的压缩效率高出10-20%。一殷地讲，与传输原始的DCT 系数相比，传输表格或深度量化的系数只有少很多的数据量.

无损压缩
量化完成后，无损地减少数据量是通过VLC（可变长编码)RLC(游程编码)实现的。传送系数的濒序优化了编码过程的效率：以锯齿状路线处理8点*8点的块中的64个系数，形成了最大长度的连续零值，提高了压缩效率。可变长编码是这样一个过程，识别出数据中常见的模式(或字)，用较少的比特来描述较额繁出现的数值，用较多的字描述不常出现的数值。摩尔斯码(MorseCode)就是一种形式的VLC，它用根短的序列表示常出现的字母，例如“e”(用一个点表示)。VLC的另一个例于是根流行的PC程序PKZIP，它使用了Lempel—ZiV— Welch(LZW)算法来压缩数据文件。象量化一样，VLC生成图形模式的码表，这种码表与拟定的码字结合后的数据量，要比原始数据模式的少许多。RLC游程编码过程是用一个单独的码字表示一种重复模式(例如连续的零值)。举例来说，一个由25个连续“0”构成的字串，可以表示成：以字符“ESC”开始，然后是数值“25”(计数器)，最后是值“0，，。这样，25bytes 的数据被压缩成3bytes。请注意，Vlc和RLC都是无损的编码过程。

可变比特率

码率控制决定了DCT系数量化过程的粗糙程度。输出缓冲器平滑了数据流的输出，提供了对量化器的控制，来限制数据速率或将其保持在一定水平。尽管标准允许可变比特率，但仍有一些MPEG编码器提供一个恒定的比特串。在把压缩数据记录到视频磁带机里时就需要恒定的比特率，因为录象机是利用机械部件如旋转磁头等以恒定速度工作的。另一方面，可变的比特率对于在粹发情况下工作良好的磁盘记录介质是很理想的。一般说来，可变比特率对于提供稳定的图象质量是个更好的选择。任何情况下，固定的数据速率都只是个概念而己一一 —一在过程中给定的扫描线之间，在给定的帧与顿之间，数据是变化的，DCT系数在变化，熵编码也在变化。

消除时城冗余

视频信号的另一个届性是时域冗余，它是指对于一个给定的图象序列，图象内容在帧与帧之间变化很小。对帧间相关图象内容的位置变化(或称运动)的计算是帧问压缩的主要组成部分。(图6)运动颈测由两个过程：先把图象划分为若干16点*l6点的宏块(4个8点*8点的块)，然后搜索判定它在下一帧中的位置。虽然宏块的采样在一定程度上己发生变化，但相关技术的应用使得位置匹配可以精确到半个象素点。成功的按索将为该宏块生成一个运动矢量。

帧间压缩和运动补偿

帧间压缩基于末压缩的图象进行工作，基本上是无损的。在图7中，基淮帧堆栈中保存着满分辨率的前一帧图象，拥有全部视频数据。而运动矢量从运动补偿块中被计算出来，用来预溯当前帧图象．由于各帧图象可能有着不同种类的差异，而预测只能提供宏块的运动矢量，所以预溯可能不是十分的精确。(后面将谈到预测的这点缺陷是无关紧要的) 预测帧堆栈存储着被预测的当前帧，这些内容是通过前一帧和运动矢量的信息来构造的。然后从实际的当前帧中减去被预测的当前帧，其差异作为输出。如果没有运动和其他变化(考虑一种权端情况，一帧图象重复出现)，当前帧可以很精确地预测出来，并且差值输出应为零(很容易压缩)。当两帧不完全相同时，帧问差异只包含很少的信息，容易被压缩。请注意，图7展示了如何生成前向预测帧(P帧)和双向预测帧(B帧)，后面将有更为详尽的定义。重要的是，这种帧内压缩，帧问压缩方式的组合，已构成了基本的MPEG—2视频压缩系统。(图8)预铡帧是从经过DCT量化，解码的图象得来的，这样能够得到更好的整体效果，因为编码器重复了解码器的工作过程，这样就减弱了数学运算导致的负效应，例如舍位，进位错误。

基准图象堆栈如何影响预测能力

只能处理P帧的编码器和对P帧B帧都能处理的编码器主要的差异就在于基准帧堆栈。前向预测只要求存储最后一个基准帧，而双向预测要求存储最后一个基准帧和一个将来的基准帧。