数字电视信源编码的主要技术与标准

syswai 2007-02-13

展开全文

数字电视信源编码的主要技术与标准

　【摘要】:本文介绍了有关数字电视信源编码的一些主要技术和标准,包括数字演播室标准ITU--601,压缩编码的基本原理和方法,图像压缩编码标准H261,JPEG和MPEG,以及作为数字电视信源编码标准输出的MPEG--2码流的形成。

　　准数字电视和数字高清晰度电视在内的数字电视体系的开发研究正加紧进行。美国已完成称为GA的数字高清晰度电视的标准制定及其进入实用的时间表，欧洲则在开发独立的数字电视方案，并制定了数字电视广播DVB的标准。这一切都是以数字电视信源编码的一系列技术与标准的成熟为基础的。信源编码作为数字电视系统的核心构成部分，直接决定了数字电视的基本格式及其信号编码效率，决定了数字电视最终如何在实际的系统中实现。

　　一.数字电视的信源编码

　　一个完整的数字电视系统包括数字电视信号的产生、处理、传输、接收和重现等诸多环节。数字电视信号在进入传输通道前的处理过程一般如图1所示：

　　电视信号在获取后经过的第一个处理环节就是信源编码。信源编码是通过压缩编码来去掉信号源中的冗余成分，以达到压缩码率和带宽，实现信号有效传输的目的。信道编码是通过按一定规则重新排列信号码元或加入辅助码的办法来防止码元在传输过程中出错，并进行检错和纠错，以保证信号的可靠传输。信道编码后的基带信号经过调制，可送入各类通道中进行传输。目前数字电视可能的传输通道包括卫星，地面无线传输和有线传输等。

　　信源编码的目的是通过在编码过程中对原始信号冗余度的去除来压缩码率，因此压缩编码的技术与标准成为信源编码的核心。九十年代以来，各种压缩编码的国际标准相继推出，其中MPEG－2是专为数字电视《包括标准数字电视和数字高清晰度电视》制定的压缩编码标准。MPEG－2压缩编码输出的码流作为数字电视信源编码的标准输出码流已被广泛认可。目前数字电视系统中信源编码以外的其他部分，包括信道编码，调制器，解调器等，大都以MPEG－2码流作为与之适配的标准数字信号码流。

　　信源编码的第一步首先要对模拟电视信号进行取样和模数变换，相应的需要一个统一的标准。数字演播室标准ITU－R601正是为此制定的国际标准。

　　二.数字演播室标准ITU－R601

　　早在七十年代末，英国广播公司和索尼公司就分别展示了其各自开发的彩色数字录像机，成为最早的数字电视编录产品，由此促成了电视信号模数转换规范的产生。1980年，国际无线电咨询委员会CCIR提出了电视信号模数转换标准的建议，即称为数字演播室标准的CCIR601。后来CCIR成为国际电信联盟的无线电委员会，称为ITU－R，相应的CCIR－601也改称ITU－R601，成为模拟电视向数字电视转变过程中的第一个标准规范，其分量编码标准如表1所示。

　　表 1 ITU－R601数字演播室分量编码标准《4：2：2》

参数电视制式 PAL NTSC

每行取样数亮度信号每个色差信号

864 858 432 429

取样结构正交取样，色差信号与亮度信号的奇次样值同位

取样频率亮度信号每个色差信号

13.5兆赫 6.75兆赫

编码方式亮度和色差信号均采用线性PCM，8比特量化

每数字有效行取样数亮度信号每个色差信号 720 360

量化级数亮度信号每个色差信号

220 224

　　参数说明：

　　1.取样频率：根据奈奎斯特定理，取样频率应至少不低于信号最高频率的2倍。其次，为便于进行信源编码，取样结构最好为正交结构，即每个取样点应与其相邻行和相邻帧对齐。为此取样频率必须为行频的整数倍。要同时满足PAL与NTSC的正交取样，取样频率应为两者行频的公倍数。同时，取样频率的选取还必须兼顾码率和带宽。综合考虑上述因素，亮度信号的取样频率定为13.5兆赫。在4：2：2格式中，每个色差信号取样数为亮度信号的一半，取样频率定为6.75兆赫；

　　2.每行取样数：由取样频率除以行频得到每行取样数。为提高编码效率，去掉行场逆程的取样，得到降低了的每数字有效行取样数；

　　3.编码方式：采用简单的线性PCM编码。量化比特数为8比特，这是一个由实验决定的结果。具体实验显示，8比特量化产生的256级量化级，已完全能满足人眼对亮度与色度层次分辨的需要。

　　ITU－R601主要是一种取样标准。模拟电视信号据此取样后进行8比特量化和线性PCM编码，即可得到符合数字演播室标准的基带数字信号。但是，由此得到的数字电视信号具有非常高的码率和带宽，难以进入实用。虽然ITU－R601建议早在1980年已经制定，但直到九十年代一系列有效的图像数码压缩技术及相应的国际标准出现以后，数字电视才得到了迅速的发展。

　　图像数据的压缩主要基于对各种图像数据冗余度及视觉冗余度的压缩，包括如下一些方法：

　　1.统计冗余度的压缩：对于一串由许多数值构成的数据来说，如果其中某些值经常出现，而另外一些值很少出现，则这种由取值上的统计不均匀性就构成了统计冗余度，可以对之进行压缩。具体方法是对那些经常出现的值用短的码组来表示，对不经常出现的值用长的码组来表示，因而最终用于表示这一串数据的总的码位，相对于用定长码组来表示的码位而言得到了降低，这就是熵编码的思想。目前用于图像压缩的具体的熵编码方法主要是霍夫曼编码，即一个数值的编码长度与此数值出现的概率尽可能地成反比。霍夫曼编码虽然压缩比不高，约为1.6：1，但好处是无损压缩，目前在图像压缩编码中被广泛采用。

　　视频图像在每一点的取值上具有任意性。对于运动图像而言，每一点在一段时间内能取可能的任意值，在取值上具有统计均匀性，难以直接运用熵编码的方法，但可以通过适当的变换编码的方法，如DCT变换，使原图像变成由一串统计不均匀的数据来表示，从而利用霍夫曼编码来进行压缩。

　　2.空间冗余度的压缩：一幅视频图像相邻各点的取值往往相近或相同，具有空间相关性，这就是空间冗余度。图像的空间相关性表示相邻象素点取值变化缓慢。从频域的观点看，意味着图像信号的能量主要集中在低频附近，高频信号的能量随频率的增加而迅速衰减。通过频域变换，可以将原图像信号用直流分量及少数低频交流分量的系数来表示，这就是变换编码中的正交余弦变换DCT的方法。DCT是JPEG和MPEG压缩编码的基础，可对图像的空间冗余度进行有效的压缩。

　　视频图像中经常出现一连串连续的象素点具有相同值的情况，典型的如彩条，彩场信号等。只传送起始象素点的值及随后取相同值的象素点的个数，也能有效地压缩码率，这就是行游程编码。目前在图像压缩编码中，行游程编码并不直接对图像数据进行编码，主要用于对量化后的DCT系数进行编码。

　　3.时间冗余度的压缩：时间冗余度表现在电视画面中相继各帧对应象素点的值往往相近或相同，具有时间相关性。在知道了一个象素点的值后，利用此象素点的值及其与后一象素点的值的差值就可求出后一象素点的值。因此，不传送象素点本身的值而传送其与前一帧对应象素点的差值，也能有效地压缩码率，这就是差分编码DPCM。在实际的压缩编码中，DPCM主要用于各图像子块在DCT变换后的直流系数的传送。相对于交流系数而言，DCT直流系数的值很大，而相继各帧对应子块的DCT直流系数的值一般比较接近，在图像未发生跳变的情况下，其差值同直流系数本身的值相比是很小的。

　　由差分编码进一步发展起来的预测编码，是根据一定的规则先预测出下一个象素点或图像子块的值，然后将此预测值与实际值的差值传送给接收端。目前图像压缩中的预测编码主要用于帧间压缩编码，方法是先根据一个子块的运动矢量求出下一帧对应子块的预测值及其与实际值的差值，接收端根据运动矢量及差值恢复出原图像。由于运动矢量及差值的数据量低于原图像的数据量，因而也能达到图像数据压缩的目的。

　　4.视觉冗余度的压缩：视觉冗余度是相对于人眼的视觉特性而言的。人眼对于图像的视觉特性包括：对亮度信号比对色度信号敏感，对低频信号比对高频信号敏感，对静止图像比对运动图像敏感，以及对图像水平线条和垂直线条比对斜线敏感等。因此，包含在色度信号，图像高频信号和运动图像中的一些数据并不能对增加图像相对于人眼的清晰度作出贡献，而被认为是多余的，这就是视觉冗余度。

　　压缩视觉冗余度的核心思想是去掉那些相对人眼而言是看不到的或可有可无的图像数据。对视觉冗余度的压缩通常已反映在各种具体的压缩编码过程中。如对于DCT系数的直流与低频部分采取细量化，而对高频部分采取粗量化，使得DCT变换能借此压缩码率，并能有效地进行行游程编码。在帧间预测编码中，大码率压缩的预测帧及双向预测帧的采用，也是利用了人眼对运动图像细节不敏感的特性。

　　图像压缩编码的具体方法虽然还有多种，但大都是建立在上述基本思想之上的。DCT变换，行游程编码，DPCM，帧间预测编码及霍夫曼编码等编码方法，因技术上的成熟，已被有关国际组织定为压缩编码的主要方法。

　　四.图像压缩的主要技术与标准

　　目前有关图像压缩方面的主要标准包括CCITT的H.261,JPEG和MPEG。是分别针对电视电话图像，静止图像和活动图像的压缩编码标准。这几种压缩标准虽然各自针对性不同，但压缩编码方法大体相似。

　　1.H261

　　图像压缩编码标准的提出最早源于通讯中对可视电话的研究。经过多年努力，至1980年，国际电报电话咨询委员会CCITT所属的视频编码专家组的H.261建议被通过，成为可视电话和电话会议的国际标准。H.261又称Px64，传输码率为Px64kbps，其中P＝1－30可变，根据图像传输清晰度的不同，码率变化范围在64kbps至1.92Mbps之间，编码方法包括DCT变换，可控步长线性量化，变长编码及预测编码等。其简化的编码原理框图如图2所示。

　　图中，DCT变换的输入输出选择开关由帧内/帧间模式选择电路控制。在帧内模式时，开关打到上面，输入信号经DCT变换，线性量化和变长编码后输出，图像只进行帧内压缩。在帧间模式时，开关打到下面，前一帧图像信号经过预测环中的运动补偿后产生一个后帧的预测信号。后帧的实际输入信号与其预测值相减后，在进行一个帧内压缩编码的过程后输出。

　　图中变长编码器产生的控制信号送量化器以控制其量化步长。当变长编码器的输入中连续出现许多大数值的数据，导致集中出现长的码组，使缓存器接近溢出时，控制信号使量化器的量化步长加大，以降低大数值数据的出现；反之，也可控制量化器以减小其量化步长。在预测环路中由于存在用于恢复前帧信号的反量化器，量化步长控制信号也要送到预测环中的反量化器中。

　　H.261所针对的可视电话信号最初考虑是在一般电话网中传输的，带宽和码率是其考虑的核心问题。其每帧取样点数比ITU－R601所规定的低许多，且采取抽帧传输的方法，无法满足数字电视压缩编码的要求，但H.261是此前压缩编码数十年研究的结果，成为以后JPEG和MPEG编码方法的重要基础。

　　2.JPEG

　　1986年，国际标准化组织ISO和国际电报电话咨询委员会CCITT共同成立了联合图像专家组《Joint Photographic Experts Group》，对静止图像压缩编码的标准进行了研究，JPEG小组于1988年提出建议书，1992年成为静止图像压缩编码的国际标准。JPEG是一个达到数字演播室标准的图像压缩编码标准，其亮度信号与色度信号均按照ITU－R601的规定取样后划分为8x8子块进行编码处理。

　　JPEG是一种不含帧间压缩的帧内压缩编码方法，其主要编码过程与H.261的帧内编码过程大致相同。输入信号经DCT变换后，按固定的亮度与色度量化矩阵进行非线性量化。对量化后的DCT直流系数进行差分编码，交流系数进行行游程编码，再按霍夫曼码表进行变长编码后，送缓存器输出。

　　JPEG不含帧间压缩，压缩比较帧内/帧间压缩低。但因为不含帧间压缩，使得各帧在压缩编码后是各自独立的，这一点对于编辑来说是有利的，可以做到精确到逐帧的编辑。所以对于活动画面只进行帧内压缩的Motion-JPEG，目前仍然在一些数字电视编录设备，如非线性编辑系统中得到应用。

　　3.MPEG

　　1988年，国际标准化组织ISO和国际电工委员会IEC共同组建了运动图像专家组《Moving Picture Experts Group》，对运动图像的压缩编码标准进行了研究。1992年和1994年分别通过了MPEG－1和MPEG－2压缩编码标准。

　　MPEG－1主要是针对运动图像和声音在数字存储时的压缩编码，典型应用如VCD等家用数字音像产品，其编码最高码率为1.5Mbps。MPEG－2则针对数字电视的视音频压缩编码，对数字电视各种等级的压缩编码方案及图像编码中划分的层次作了详细的规定，其编码码率可从3Mbps到100Mbps。

　　MPEG的基本编码过程与H.261相似，即通过DCT进行帧间压缩。除了在编码语法上加进了一些特别规定外，与H.261的一个重要不同是MPEG在预测编码中加进了一个双向预测帧B帧，如图3所示。

　　图中，I帧只进行帧内压缩，是作为预测基准的独立帧，具有较小的压缩比。由I帧前向预测产生的P帧具有中等压缩比，并与I帧一起成为B帧的预测基准。由此产生的B帧则具有最高的压缩比。I帧出现的频率及I，B，P帧之间如何组合，MPEG未作具体规定，可由编码器自行选择。如索尼的数字Betacom录像机，为便于精确地编辑，在压缩编码过程中抽掉了B帧，只有I帧与P帧的组合。

　　在上述各种图像压缩编码标准中，MPEG－2是专门针对数字电视的。MPEG－2的压缩编码及其标准码流的形成构成了数字电视信源编码的核心。

　　五.MPEG－2标准码流的形成

　　符合MPEG－2格式的码流成为数字电视信源编码的标准输出码流。数字电视信道编码，DVB及MPEG－2解码器等均认同和适应此标准。为了形成统一标准的MPEG－2输出码流，MPEG－2对其压缩编码的适用范围和编码语法，对码流的打包与复用等作了详细具体的规定。

　　1.MPEG－2的类和级

　　在对数字电视信号进行压缩编码时，MPEG－2可采用多种编码工具并实现不同层次的清晰度，分别称为MPEG－2的类《Profile》和级《Level》，具体分为五类四级。

　　图像清晰度由LOW到HIGH逐级提高，使用的编码工具从SIMPLE到HIGH依次递增。20个可能的组合中有11个已获通过，称为MPEG－2 适用点，其中主类主级MP@ML适用于标准数字电视，主类高级MP@HL则用于高清晰度电视。

　　2.MPEG－2的层

　　MPEG－2根据图像块和图像帧的不同组合划分为六层。MPEG－2的层直接决定了编码码流的形成和结构。MPEG－2的层从下至上依次为：

　　象块层:由8x8个象素点构成的DCT变换基本单元；

　　宏块层:在4：2：2取样中，一个宏块由4个亮度象块，2个Cr象块和2个Cb 象块构成。另外还有4：2：0取样和4：4：4取样的两种宏块；

　　像条层:一连串宏块可构成一个像条；

　　图像层:一系列像条可以构成一幅图像，图像分为I，B，P三类；

　　图像组层:由相互间相关的一组I，B，P帧组成，I帧为第一帧；

　　视频序列层:一系列图像组构成了一个视频序列；

　　从象块开始从下至上依次编码，并在除象块和宏块外的每一层的开始处加上起始码和头标志，就形成了MPEG－2基本码流（Elementary Stream〕。

　　3.MPEG－2基本码流的打包与复用

　　分别从MPEG－2编码器中输出的视频，音频和数据基本码流无法直接送信道传输，需要经过打包和复用，形成适合传输的单一的MPEG－2传输码流。

　　视频，音频及数据基本码流ES先被打成一系列不等长的PES小包，称为打包的基本码流。每个PES小包带有一个包头，内含小包的种类，长度及其他相关信息。视频，音频及数据的PES小包，按照共同的时间基准，经节目复用后形成单一的节目码流。多路节目码流经传输复用后形成由定长传输小包组成的单一的传输码流，成为MPEG－2信源编码的最终输出信号

　　在数字化电视信号的信源编码中，根据对图像清晰度的不同要求及其他方面的考虑，可分别采用JPEG、MPEG-1和MPEG-2作为编码方法。其中，MPEG-2由于专门针对数字电视的信源编码制定了一系列的语法和规范并被广泛认可，已成为数字电视广播信源编码的核心技术与标准。

H.264

H.264/AVC 是ITU-T VCEG 和ISO/IEC MPEG共同开发的视频处理标准，ITU-T作为标准建议H.264，ISO/IEC作为国际标准14496-10（MPEG-4 第10部分）高级视频编码（AVC）。

MPEG-2视频编码标准（又称为ITU-T H.262[2]）已有10年的历史了，由MPEG-1扩充而来，支持隔行扫描。使用十分广泛，几乎用于所有的数字电视系统，适合标清和高清电视，适合各种媒体传输，包括卫星、有线、地面等，都能有效地传输。然而，类似xDSL、UMTS（通用移动系统）技术只能提供较小的传输速率，甚至DVB-T，也没有足够的频段可用，提供的节目很有限，随着高清电视的引入，迫切需要高压缩比技术的出现。

应用于电信的视频编码经历了ITUT H.261、H.262（MPEG-2）、H.263、H.263+、H.263++，提供的服务从ISDN和T1/E1到PSTN、移动无线网和LAN/INTERNET网。

最近MPEG-4第二部分进入了实用领域，提供了视频形状编码，目标是与MPEG-2一样获得广泛的数字电视应用。

1998年，视频编码专家组（VCEG-ITU-T SG16Q.6）启动了H.26L工程，旨在研制出新的压缩标准，与以前的任何标准相比，效率要提高一倍，同时具有简单、直观的视频编码技术，网络友好的视频描述，适合交互和非交互式应用（广播、存储、流煤体）。

2001年12月，VCEG和运动图像专家组（MPEG-ISO/IEC JTC 1/SC 29/WG 11）组成了联合视频组（JVT，Joint Video Team），研究新的编码标准H.264/AVC，该标准于2003年3月正式获得批准。

视频的各种应用必须通过各种网络传送，这要求一个好的视频方案能处理各种应用和网络接口。H.264/AVC为了解决这个问题，提供了很多灵活性和客户化特性。H.264/AVC的设计方案包含两个层次，视频编码层（VCL，Video Coding Layer）和网络抽象层（NAL，Network Abstraction Layer）。视频编码层主要致力于有效地表示视频内容，网络抽象层格式化VCL视频表示，提供头部信息，适合多种传输和存储媒体。

VCL的设计同以前的ITU-T和 ISO/IEC JTC一样，基于块的混合视频编码方法。基本的源编码算法是：利用时间统计的相关性，开发帧间预测算法；利用预测残留变换编码，开发空间统计的相关性。在提高编码效率方面，没有一个单一的算法做出特别的贡献，而是大量的小的改善算法综合产生的结果。

一、主要特性

1、H.264/AVC相对以前的编码方法，以MPEG-2为例，在图像内容预测方面提高编码效率，改善图像质量的主要特点如下：

● 可变块大小运动补偿：选择运动补偿大小和形状比以前的标准更灵活，最小的亮度运动补偿块可以小到4×4。

●1/4采样精度运动补偿：以前的标准最多1/2精度运动补偿，首次1/4采样精度运动补偿出现在MPEG-4第二部分高级类部分，但H.264/AVC大大减少了内插处理的复杂度。

●运动矢量可跨越图像边界：在以前的标准中，运动矢量限制在已编码参考图像的内部。图像边界外推法作为可选技术首次出现在H.263中。

●多参考图像运动补偿：在MPEG-2及以前的标准中，P帧只使用一帧，B帧只使用两帧图像进行预测。H.264/AVC使用高级图像选择技术，可以用以前已编码过且保留在缓冲区的大量的图像进行预测，大大提高了编码效率。

●消除参考图像顺序和显示图像顺序的相关性：在以前的标准中，参考图像顺序依赖显示图像顺序，H.264/AVC消除了该限制，可以任意选择。

● 消除参考图像与图像表示方法的限制：在以前的标准中，B帧图像不能作为预测图像，H.264/AVC在很多情况可以利用B帧图像作为参考。

● 加权预测：H.264/AVC采用新技术，允许加权运动补偿预测和偏移一定量。在淡入淡出场景中该技术极大提高编码效率，该技术还可用于其他多种用途。

● 改善“跳过”和“直接”运动推测：在以前的标准中，预测编码图像的“跳过”区不能有运动。当编码有全局运动的图像时，该限制非常有害。H.264/AVC对“跳过”区的运动采用推测方法。对双预测的B帧图像，采用高级运动预测方法，称为“直接”运动补偿，进一步改善编码效率。

● 帧内编码直接空间预测：将编码图像边沿进行外推应用到当前帧内编码图像的预测。

● 循环去块效应滤波器：基于块的视频编码在图像中存在块效应，主要来源于预测和残余编码。自适应去块效应滤波技术是非常著名的技术，能有效消除块效应，改善视频的主观和客观质量。

2、除改善预测方法外，其他改善编码效率的特性如下：

● 小块变换：以前的标准变换的块都是8×8，H.264/AVC主要使用4×4块变换，使编码器表示信号局部适应性更好，更适合预测编码，减少“铃”效应。另外图像边界需要小块变换。

● 分级块变换：H.264/AVC通常使用小块变换，但有些信号包含足够的相关性，要求以大块表示，H.264/AVC有两种方式实现。低频色度信号可用8×8，；对帧内编码，可使用特别的编码类型，低频亮度信号可用16×16块。

● 短字长变换：所有以前标准使用的变换要求32位运算，H.264/AVC只使用16位运算。

● 完全匹配反变换：所有以前标准反变换和变换之间存在一定容限的误差，因此，每个解码器输出视频信号都不相同，产生小的漂移，最终影响图像的质量，H.264/AVC实现了完全匹配。

● 基于上下文的熵编码：H.264/AVC使用两种熵编码方法，CAVLC（上下文自适应的可变长编码）和CABAC（上下文自适应二进制算术编码），两种都是基于上下文的熵编码技术。

3、H.264/AVC具有强大的纠错功能和各种网络环境操作灵活性，主要特性如下：

● 参数集结构：H.264/AVC参数集结构设计了强大、有效的传输头部信息。在以前的标准中，如果少数几位关键信息丢失，可能解码器产生严重解码错误。H.264/AVC采用很灵活、特殊的方式，分开处理关键信息，能在各种环境下可靠传送。

● NAL单元语法结构：H.264/AVC中的每一个语法结构放置在称为NAL的单元中，以前的标准采用强制性特定的位流接口。NAL单元语法结构允许很自由的客户化，几乎适合所有的网络接口。

● 灵活的像条大小：在MPEG-2中，规定了严格的像条结构，头部数据量大，降低预测效率，编码效率低。在H.264/AVC可采用非常灵活的像条大小。

● 灵活宏块排序（FMO）：H.264/AVC可以将图像划分为像条组，又称为图像区，每个像条可以独立解码。FMO通过管理图像区之间的关系，具有很强的抗数据丢失能力。

● 任意像条排序：因为每个像条几乎可以独立解码，所以像条可以按任意顺序发送和接收，在实时应用中，可以改善端到端的延时特性，特别适合于接收顺序和发送顺序不能对应的网络中，如使用INTERNET网络协议的应用。

● 冗余图像：为提高抗数据丢失的能力，H.264/AVC设计中包含一种新的能力，允许编码器发送图像区的冗余表示，当图像区的主表示丢失时仍可以正确解码。

● 数据划分：视频流中的编码信息的重要性不同，有些信息（如运动矢量、预测信息等）比其他信息更为重要。H.264/AVC可以根据每个像条语法元素的范畴，将像条语法划分为3部分，分开传送。

二、网络层

NAL规范视频数据的格式，主要是提供头部信息，以适合各种媒体的传输和存储。NAL支持各种网络，包括：

● 任何使用RTP/IP协议的实时有线和无线Internet 服务。

● 作为MP4文件存储和多媒体信息文件服务。

● MPEG-2系统。

● 其他网。

1、NAL 单元

编码的视频流组织成NAL单元，视频数据放置在网络单元中传输，每个网络单元包含整数个字节，第一个字节是头部信息，指示NAL单元的数据类型，其余是净荷。

净荷数据与仿真预防字节做交织处理，仿真预防字节是特殊值字节，防止偶然在净荷中出现同步字节图样。

NAL规定一种通用的格式，既适合面向包传输，也适合流传送。实际上，包传输和流传输的方式是相同的，不同之处是流传输前面增加了一个起始码前缀。

2、NAL单元在字节流中的应用

类似H.320和MPEG-2/H.222.0等传输系统，传输NAL作为有序连续字节或比特流，同时要依靠数据本身识别NAL单元边界。在这样的应用系统中，H.264/AVC规范定义了字节流格式，每个NAL单元前面增加3个字节的前缀，即同步字节。在比特流应用中，每个图像需要增加一个附加字节作为边界定位。还有一种可选特性，在字节流中增加附加数据，用做扩充发送数据量，能实现快速边界定位，恢复同步。

3、NAL单元在面向包传送中的应用

在类似Internet/RTP面向包传送协议系统中，包结构中包含包边界识别字节，在这种情况下，不需要同步字节。

4、VCL和非VCL的NAL单元

NAL单元分为VCL和非VCL两种，VCL NAL单元包含视频图像采样信息，非VCL包含各种有关的附加信息，例如参数集（头部信息，应用到大量的VCL NAL单元）、提高性能的附加信息、定时信息等。

5、参数集

参数集是很少变化的信息，用于大量VCL NAL单元的解码，分为两种类型：

● 序列参数集，作用于一串连续的视频图像，即视频序列。

● 图像参数集，作用于视频序列中的一个或多个个别的图像。

序列和图像参数集机制，减少了重复参数的传送，每个VCL NAL单元包含一个标识，指向有关的图像参数集，每个图像参数集包含一个标识，指向有关的序列参数集的内容，因此，只用少数的指针信息，引用大量的参数，大大减少每个VCL NAL单元重复传送的信息。

序列和图像参数集可以在发送VCL NAL单元以前发送，并且重复传送，大大提高纠错能力。序列和图像参数集可以在“带内”，也可以用更为可靠的其他“带外”通道传送。

6、存储单元

一组指定格式的NAL单元称为存储单元，每个存储单元对应一个图像。每个存储单元包含一组VCL NAL单元，组成一个主编码图像，VCL NAL单元由表示视频图像采样的像条所组成。存储单元前面可以加一个前缀，分界存储单元，附加增强信息（SEI）（如图像定时信息）也可以放在主编码图像的前面。

主编码图像后附加的VCL NAL单元，包含同一图像的冗余表示，称为冗余编码图像，当主编码图像数据丢失或损坏时，可用冗余编码图像解码。

7、编码视频序列

一个编码视频序列由一串连续的存储单元组成，使用同一序列参数集。每个视频序列可独立解码。编码序列的开始是即时刷新存储单元（IDR）。IDR是一个I帧图像，表示后面的图像不用参考以前的图像。一个NAL单元流可包含一个或更多的编码视频序列。

MPEG-4标准

运动图像专家组MPEG 于1999年2月正式公布了MPEG-4（ISO/IEC14496）标准第一版本。同年年底MPEG-4第二版亦告底定，且于2000年年初正式成为国际标准。

   MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法，它是针对数字电视、交互式绘图应用（影音合成内容）、交互式多媒体（WWW、资料撷取与分散）等整合及压缩技术的需求而制定的国际标准。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内，旨在为多媒体通信及应用环境提供标准的算法及工具，从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。

   MPEG-4的编码理念是：MPEG-4标准同以前标准的最显著的差别在于它是采用基于对象的编码理念，即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象，分别编码后，再经过复用传输到接收端，然后再对不同的对象分别解码，从而组合成所需要的视频和音频。这样既方便我们对不同的对象采用不同的编码方法和表示方法，又有利于不同数据类型间的融合，并且这样也可以方便的实现对于各种对象的操作及编辑。例如，我们可以将一个卡通人物放在真实的场景中，或者将真人置于一个虚拟的演播室里，还可以在互联网上方便的实现交互，根据自己的需要有选择的组合各种视频音频以及图形文本对象。

   MPEG-4系统的一般框架是：对自然或合成的视听内容的表示；对视听内容数据流的管理，如多点、同步、缓冲管理等；对灵活性的支持和对系统不同部分的配置。

   与MPEG-1、MPEG-2相比，MPEG-4具有如下独特的优点：

   （1）基于内容的交互性

   MPEG-4提供了基于内容的多媒体数据访问工具，如索引、超级链接、上下载、删除等。利用这些工具，用户可以方便地从多媒体数据库中有选择地获取自己所需的与对象有关的内容，并提供了内容的操作和位流编辑功能，可应用于交互式家庭购物，淡入淡出的数字化效果等。MPEG-4提供了高效的自然或合成的多媒体数据编码方法。它可以把自然场景或对象组合起来成为合成的多媒体数据。

   （2）高效的压缩性

   MPEG-4基于更高的编码效率。同已有的或即将形成的其它标准相比，在相同的比特率下，它基于更高的视觉听觉质量，这就使得在低带宽的信道上传送视频、音频成为可能。同时MPEG-4还能对同时发生的数据流进行编码。一个场景的多视角或多声道数据流可以高效、同步地合成为最终数据流。这可用于虚拟三维游戏、三维电影、飞行仿真练习等

   （3）通用的访问性

   MPEG-4提供了易出错环境的鲁棒性，来保证其在许多无线和有线网络以及存储介质中的应用，此外，MPEG-4还支持基于内容的的可分级性，即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求，支持具有不同带宽，不同存储容量的传输信道和接收端。

   这些特点无疑会加速多媒体应用的发展，从中受益的应用领域有：因特网多媒体应用；广播电视；交互式视频游戏；实时可视通信；交互式存储媒体应用；演播室技术及电视后期制作；采用面部动画技术的虚拟会议；多媒体邮件；移动通信条件下的多媒体应用；远程视频监控；通过ATM网络等进行的远程数据库业务等。MPEG-4主要应用如下：

   （1）应用于因特网视音频广播

   由于上网人数与日俱增，传统电视广播的观众逐渐减少，随之而来的便是广告收入的减少，所以现在的固定式电视广播最终将转向基于TCP/IP的因特网广播，观众的收看方式也由简单的遥控器选择频道转为网上视频点播。视频点播的概念不是先把节目下载到硬盘，然后再播放，而是流媒体视频（streaming video），点击即观看，边传输边播放。

   现在因特网中播放视音频的有：Real Networks公司的 Real Media，微软公司的 Windows Media，苹果公司的 QuickTime，它们定义的视音频格式互不兼容，有可能导致媒体流中难以控制的混乱，而MPEG-4为因特网视频应用提供了一系列的标准工具，使视音频码流具有规范一致性。因此在因特网播放视音频采用MPEG-4，应该说是一个安全的选择。

   （2）应用于无线通信

   MPEG-4高效的码率压缩，交互和分级特性尤其适合于在窄带移动网上实现多媒体通信，未来的手机将变成多媒体移动接收机，不仅可以打移动电视电话、移动上网，还可以移动接收多媒体广播和收看电视。

   （3）应用于静止图像压缩

   静止图像（图片）在因特网中大量使用，现在网上的图片压缩多采用JPEG技术。MPEG-4中的静止图像（纹理）压缩是基于小波变换的，在同样质量条件下，压缩后的文件大小约是JPEG压缩文件的十分之一。把因特网上使用的JPEG图片转换成MPEG-4格式，可以大幅度提高图片在网络中的传输速度。

   （4）应用于电视电话

   传统用于窄带电视电话业务的压缩编码标准，如H261，采用帧内压缩、帧间压缩、减少象素和抽帧等办法来降低码率，但编码效率和图像质量都难以令人满意。MPEG-4的压缩编码可以做到以极低码率传送质量可以接受的声像信号，使电视电话业务可以在窄带的公用电话网上实现。

   （5）应用于计算机图形、动画与仿真

   MPEG-4特殊的编码方式和强大的交互能力，使得基于MPEG-4的计算机图形和动画可以从各种来源的多媒体数据库中获取素材，并实时组合出所需要的结果。因而未来的计算机图形可以在MPEG-4语法所允许的范围内向所希望的方向无限发展，产生出今天无法想象的动画及仿真效果。

   （6）应用于电子游戏

   MPEG-4可以进行自然图像与声音同人工合成的图像与声音的混合编码，在编码方式上具有前所未有的灵活性，并且能及时从各种来源的多媒体数据库中调用素材。这可以在将来产生象电影一样的电子游戏，实现极高自由度的交互式操作。