多媒体数据压缩编码技术(二)

开花结果 2011-04-14

展开全文

10、静态图像压缩标准JEPG

10.1、JEPG算法概要

10.1.1、JEPG算法的主要研究内容

　　多灰度连续色调静态图像压缩编码（即JPEG标准）是适用于彩色和单色多灰度或连续色彩静止数字图像的压缩标注。它包括无损压缩和基于离散余弦变换和Huffman编码的有损压缩两个部分，JEPG定义了两种相互独立的基本压缩算法：

·基于DCT的有失真压缩算法；
·基于空间线性预测技术（DPCM）的无失真压缩算法。

　　JEPG算法主要存储颜色变化，尤其是亮度变化，因为人眼对亮度变化要比对颜色变化更为敏感。只要压缩后重建的图像与原来图像在亮度变化、颜色变化上相似，在人眼看来就是同样的图像。其原理是不重建原始画面，而生成与原始画面类似的图像，丢掉那些未被注意到的颜色。

　　JEPG算法与彩色空间无关，因此“RGB到YUV变换”和“YUV到RGB变换”不包含在JEPG算法中。JEPG算法处理的彩色图像是单独的彩色分量图像，因此，它可以压缩来自不同彩色空间的数据，如RGB，YcbCr和CMYK。

10.1.2、JEPG算法框图

　　压缩的过程，如下图所示：

　　JEPG压缩编码大致分为三个步骤：

·使用正向离散余弦变换（forward discrete cosine transform，FDCT）把空间域表示的图变换成频率域表示的图。
·使用加权函数对DCT系数进行量化，这个加权函数对于人的视觉系统视最佳的。
·使用Huffuman可变字长编码器对量化系数进行编码。

　　解压缩的过程与压缩编码过程正好相反，如下图所示：

10.2、JEPG算法主要计算步骤

　　JEPG压缩编码算法的主要计算步骤如下：

（1）、正向离散余弦变换（FDCT）。
（2）、量化（quantization）。
（3）、Z字形编码（zigzag scan）。
（4）、使用差分脉冲编码调制（DPCM）对直流系数DC进行编码。
（5）、使用行程长度编码（run-length encoding,RLE）对交流系数（AC）进行编码。
（6）、熵编码（entropy coding）。

10.2.1、DCT变换（离散余弦变换）

　　按序分块，将图像分成 8 * 8 的图像子块。对每一个子块，进行DCT变换，得到DCT系数矩阵。DCT变换，即离散余弦变化。DCT（x,y）= f（像素（x，y））。为了压缩RGB彩色图像，这项工作必须进行3遍，因为JPEG分别处理每个颜色成分。

10.2.2、量化

　　量化说起来很简单，是一种降低整数精度的过程，因此就减少了存储整数所需的位数。量化的过程：试图确定什么信息可以安全地消去，而没有任何明显的视觉保真度损失。DCT系数矩阵被量化以减少系数的精度，因此提高了压缩率。

DCT系数矩阵

·量子矩阵就得到了量化后的DCT系数矩阵。
·量子矩阵可以控制量化的精度。量子矩阵中的值越大，则量化后的系数越接近于0。一般来说，量子矩阵中右下角的值较大。

10.2.3、进行Z扫描

　　量化后的DCT系数要重新编排，目的为了增加连续0的个数，右下角的部分接近0，把这个矩阵中的值重新排列游程，可以使游程中0值的长度增加，以此进一步提高压缩率。JPEG提出用之字形序列的方法为量化后的DCT系数排序。

10.2.4、直流系数（DC）进行编码

　　8×8图像块经过DCT变换之后得到的DC直流系数有两个特点：

·一是系数的数值比较大，
·二是相邻8×8图像块的DC系数值变化不大。

　　根据这个特点，JPEG算法使用了差分脉冲编码（DPCM）技术，对相邻图像块之间量化DC系数的差值Delta进行编码。

Delta ＝ DC（0，0）－DC（0，0）k-1

10.2.5、交流系数的编码

　　量化AC系数的特点是1×64矢量中包含许多“0”系数，并且许多“0”是连续的，因此非常简单和直观的游程长度编码（RLE）对它们进行编码。

　　JEPG使用了1个字节的高4位来表示连续“0”的个数，而使用它的低4位来表示编码下一个非“0”系数所需要的位数，跟在它后面的是量化AC系数的数值。

10.2.6、熵编码

　　使用熵编码还可以对DPCM编码后的直流DC系数和RLE编码后的交流AC系数作进一步的压缩。

10.2.7、组成位数据流

　　JEPG最后一个步骤是把各种标记代码和编码后的图像数据组成一帧一帧的数据。这样做的目的是为了便于传输、存储和译码器进行译码，这样的组织的数据通常称为JPEG位数据流。（JPEG bitstream）

11、运动图像压缩标准MPEG

　　活动图像专家组（Moving Picture Expert Group，MPEG）负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。这个专家组开发的标准称为MPEG标准，到目前为止，已经开发和正在开发的MPEG标准有：MPEG1，MPEG2，MPEG4，MPEG7，MPEG21等。

11.1、MPEG-1标准介绍

　　MPEG-1是“动态图片专家组”（Moving Picture Expert Group，简称MPEG）提出的“用于数字存储媒体运动图像及其伴音率为1.5Mbit/s的压缩编码”。

　　简介：

·MPEG视频压缩算法采用了三个基本技术：运动补偿（预测编码和插补编码）、DCT变换编码技术和熵编码技术。
·在MPEG中，DCT不仅用于帧内压缩，对于帧间预测再作DCT变换，可减少空域冗余，以达到进一步压缩的目的。
·由于视频和音频需要同步，所以MPEG压缩算法应该对二者联合考虑，最后产生一个电视质量的视频和音频压缩形式的位速率约为1.5Mbit/s的MPEG单一位流。

11.1.1、MPEG-1视频数据流的结构

（1）、运动序列：运动序列包括一个表头，一组或多组图像和序列结束标志码。

（2）、图像组：图像组由一系列图像组成，可以从运动序列中随机存取。

（3）、图像：图像信号分3个部分：一个亮度信号Y和两个色度信号U、V。亮度信号Y由偶数个行和偶数个列组成，色度信号U、V分别取Y信号在水平和垂直方向的1/2。如图所示，蓝点代表色度U、V的位置，亮度Y位置用黄点表示。

（4）、块：一个块由一个8×8的亮度信息或色度信息组成。

（5）、宏块：一个宏块由一个16×16的亮度信息和两个8×8色度信息构成。

（6）、图像切片由一个或多个连续的宏块构成。

11.1.2、MPEG-1视频编码技术

　　MPEG数据压缩过程中存在着的主要问题是：

·一方面仅仅使用帧内编码方法无法达到很高的压缩比；
·另一方面用单一的静止帧内编码方法能最好地满足随机存取的要求。

　　在具体实现中，对这两个方面做了折衷考虑。在MPEG编码算法中采用两种基本技术，即为了减少时间上冗余性的基于块的运动补偿技术和基于DCT变换的减少空间上冗余性的ADCT技术。

（1）、图像类型

　　在MPEG中将视频看成是一系列的图片，这些图像分为3种类型：I图像（intra picture），P图像（predicted picture），B图像（bidirectional picture）。

·I图像（帧内图）：是利用图像自身的相关性压缩，提供压缩数据流中的随机存取的点，采用基于ADCT的编码技术，压缩后，每个像素为1～2比特。
·P图像（预测图）：是用最近的前一个I图像（或P图像）预测编码得到（前向预测），也可以作为下一次预测的参照图像。
·B图像（双向图）：综合参考以前和以后的图像信息而得到的图像这种也叫双向预测。

　　上述几种类型的图像及其预测方法如上图所示。共采用4种技术，即：

　　（1）、帧内编码；
（2）、前向预测；
（3）、后向预测；
（4）、双向预测。

（2）、运动序列流的组成

　　MPEG算法允许编码选择I图像的频率和位置，这一选择是基于随机存取和场景位置切换的需要。一般1秒钟使用2次I图像，内部是两帧B图片一帧P图片。典型的P图像和B图像安排次序如图所示：

　　MPEG编码器解码器为了高效工作需对上述图像重新排序，因为参照图像必须先于B图像恢复之前恢复。上述1～7帧图像重新排后图像组的次序为：

11.1.3、运动补偿技术

　　运动补偿技术主要用于消除P图像和B图像在时间上的冗余，提高压缩率。运动补偿技术在宏块一级工作，当由运动补偿法压缩一个宏块时，压缩文件包含信息有：参考图像和被编码的宏块之间的空间差（运动矢量）；参考图像和被编码的宏块之间的内容差别（称为误差项组成）

·假设每帧当前画面都可以以前面某一帧为原型经过变换得到的，这一变换是局部的，即画面上各点位移的方向和大小不必相同。
·运动信息由一个前向预测和两个双向预测微块向量构成。每个16×16块的运动信息都与邻块有所不同，通过对比可确定运动向量的变化范围，并使之与时间分辨率、空间分辨率及画面内容相匹配。

　　运动补偿技术在宏块一级工作。对于B图像而言，每16×16宏块有四种类型：

①帧内宏块（intra macroblock），简称I块；
②前向预测宏块（forward predicted），简称F块；
③后向预测宏块（backward predicted macroblock），简称B块；
④平均宏块（average macroblock），简称A块。

　　对于P图像，其宏块只有I帧和F帧两种。

·I块：无论B图像还是P图像，I块处理技术都与I图像中所采用的技术一致，即ADCT技术。
·P块、B块和A块：MPEG都采用基于块的运动补偿技术。
·F块预测时其参照为前一个I图像或P图像。B块预测时，其参照为后一个I图像或P图像。对于A块预测其参照为前后两个I图像或P图像。

　　基于块的运动补偿技术：

　　就是在其参照帧中寻找符合一定条件限制、当前被预测块的最佳匹配块。找到匹配块后，有两种处理方法：一是在恢复被预测块时，用匹配块代替；二是对预测的误差采用ADCT技术编码，在恢复被预测块时，用匹配块加上预测误差。

　　每个包含运动信息的16×16宏块，相对于前面相邻块的运动信息作差分编码，得到运动差值，运动差值信号除了物体的边缘处外，其他部分都很小。对于运动差值信息，再使用变长码的编码方法，可达到进一步压缩数据的目的。

　　MPEG标准只说明了怎样表示运动信息，如根据运动补偿类型，前向预测、后向预测、双向预测等，每个16×16宏块可包含有一个或两个运动矢量。MPEG并没有说明运动矢量如何计算，但它采用基于块的表示方法，使用块匹配技术是可行的。搜索当前图像宏块与参照图像之间的最小误差可获得运动向量。

11.1.4、MPEG的同步技术和时序机构

　　多媒体通信系统必须考虑3个问题，即不同虚信道和物理信道中传送的信息流间的时延极限、信道间的同步和信道间的传输时延补偿。多媒体信道通常由三部分（如语音、图像和文本等）组成，尽管各个部分产生的地点和时间可能各不相同，但是它们的显现往往需要同步，这是区分多媒体系统与多功能系统的一个重要准则。

　　多媒体信息的同步大致分为两类:

（1）、连续同步：指的是两个或多个实时连续媒体流之间的同步，如音频与视频之间的同步；
（2）、事件驱动同步：指的是一个或一组相关事件发生与因此而引起的相应动作之间的同步。

　　在多媒体通信中，对于单媒体同步可以采用缓冲和反馈法，对于媒体间同步可以采用时间戳法，通过这两种方法实现信息同步。

（1）、时序与控制

　　MPEG 标准提供了一个时序机构以确保音频和视频的同步。这个标准包括两个参数：系统时钟参考（SCR）和演播时间戳（PTS）。

（2）、系统时钟参考

　　系统时钟参考是编码器时钟的基准。音频和视频所使用的系统时钟参考值必须近似于一个值。为了保证它们的值相同，MPEG编码器至少要每0.7s 将系统时钟参考值插入MPEG数据流一次，且由系统解码器抽取系统时钟参考值并送到视频和音频解码器，如下图所示。视频和音频解码器用系统解码器送来的系统时钟参考值更新其内部时钟。

（3）、演播时间戳

　　演播时间戳是与视频或音频显示单元有联系的编码器系统时钟的采样，一个显示单元是一个解码的视频图像或一个解码的音频时序序列。编码器至少每0.7s向MPEG流中插入一次多路演播时间戳，演播时间戳表明了视频将被显示的时间或音频时间序列重放的开始时刻。

11.2、MPEG-2

11.2.1、MPEG-2标准简介

　　MPEG-1标准，是一个直接与数字电视广播有关的高质量图像和声音编码标准，视频部分主要针对1.5Mbps的应用，其约束参数码流是针对 SIF格式得到优化参数。MPEG-2视频利用网络提供的更高的带宽（1.5Mbps以上）来支持具有更高分辨率图像压缩和更高的图像质量。

　　MPEG-2标准的特点：

·MPEG-2标准ISO/IEC 11172适用于VCD等数字存储介质。
·MPEG-2标准ISO/IEC 13818不仅适用于光存储介质，也用于广播、通信和计算机领域，而且高清晰度电视HDTV编码压缩用的MPEG-3也包含在MPEG-2标准中。
·在图像格式方面，有可能进行引入标准清晰度电视、高清晰度、隔行扫描、顺序扫描等各种分辨率和信号形式的影像编码。
·MPEG-2音频与MPEG-1兼容，它们都使用相同种类的编码译码器。
·MPEG-2还支持线性PCM和Dolbey AC-3（audio code number 3）编码。
·MPEG-2还定义了与MPEG-1音频格式不兼容的MPEG-2 AAC（advanced audio coding，先进音频编码）它是一种非常灵活的声音感知编码标准，支持的采样频率可从8kHz到96kHz，可支持48个主声道、16个配音声道和16 个数据流。它的压缩率提高，而且质量更高。

　　MPEG-2与MPEG-1视频比较：

·支持交迭图像序列（即每帧图像由交替的两个场组成）；
·支持可调节性编码；
·具有其他许多先进的选择、多种运动估计方法和两种扫描方式；
·具有更好的压缩效率和图像质量。

　　MPEG-2编码方法

·MPEG-2的编码方法和MPEG-1的编码方法的区别主要是在隔行扫描模式下，DCT变换是在场内还是在帧内进行以由用户自行选择。
·MPEG-2采用可调型两种编码结构，且采用两层等级编码方式。
·MPEG-2算法编码过程和解码过程是一种非镜像对称算法，也就是说运动图像的压缩编码过程与还原编码过程是不对称算法，解码过程要比编码过程相对简单。

11.2.2、MPEG-2系统模型

　　这个标准主要用来定义电视图像数据、声音数据和其他数据的组合，把这些数据组合成一个或者多个适合于存储或者传输的基本数据流。

·数据流有两种形式，一种为程序数据流（program stream，PS），另一种称为传输数据流（transport stream，TS）。
·程序数据流是组合一个或者多个规格化的即包化基本数据流（packetised elementary stream，PES）而生成的一种数据流，用在出现错误相对比较少的环境下，适合软件处理的应用：传输数据流也是组合一个或者多个PES而生成的一种数据流，它用在出现错误相对比较多的环境下，例如在有损失或者噪声的传输系统中。

11.3、MPEG-4

11.3.1、MPEG-4标准简介

　　一种针对低速率（<64kbps）下的视频、音频编码和交互播放开发的算法和工具，其显著特点是基于内容的编码，更加注重多媒体系统的交互性、互操作性、灵活性。MPEG-4标准是对一帧中的图象按内容分开，分成块。将感兴趣的物体从场景中截取出来，以后的操作就针对这些物体来进行。

·MPEG-4采用了基于对象表示的概念，引入了视听对象（audio/visual objecli AVO），使得更多的交互操作成为可能，AVO可以是一个孤立的人物，也可以是这个物的语音或一段背景音乐等。它具有高效编码、高效存储与传播及可交互操作的特性。

MPEG-4对AVO的操作主要有：

·采用AVO来表示听觉、视觉或者视听组合内容；
·组合已有AVO来生成复合的AV0，并生成视听场景；
·对AVO的数据灵活地多路合成与同步，以便选择合适的网络来传输这些AVO数据；
·允许接收端的用户在视听场景中对AVO进行交互操作等。

MPEG-4标准由以下几个主要部分构成：

·传输多媒体集成框架（delivery multimedia integration framework，DMIF）它是MPEG-4制定的会议协议，用来管理多媒体数据流；
·场景描述；
·音频编码MPEG-4不仅支持自然声音，而且支持合成声音；
·视频编码与音频编码类似，MPEG-4也支持对自然声音的编码相结合，并支持合成的视觉对象的编码。

11.3.2、基于内容的视频编码

　　引入了视频物体，视频物体平面等概念来实现基于内容的表示。

视频物体（VO）：Video Object，
视频物体平面（VOP）：Video Object Plane

　　基于内容的视频编码的一般过程

1、VO的形成
2、编码：对各个VO分别独立的编码，即包括VO的三类信息，（运动信息，形状信息，纹理信息）分别编码，分配不同码字。
3、复合：将各个VO的码流复合成一个符合MPEG-4标准的位流。

　　在编码和复合阶段可以加入用户的交互控制或由智能化算法进行控制。MPEG-4标准提供灵活的框架和开放的工具集，它通过工具集和句法描述语言不同的组合，支持功能的不同组合。

　　MPEG-4终端的构成：

　　上图描绘了MPEG－4用户终端的构成，它解释了来自网络或存储设备的流如何被分解成基本流，并传送到相应解码器的过程。解码过程从AVO的编码形成恢复其数据并执行必要操作来重构原先的AVO，准备在合适的设备展现。

11.3.3、基于VOP的编码

　　VO是场景中的某个物体，它由时间上连续的帧画面序列构成。VOP是某一时刻某一帧画面的VO，VOP编码即针对某一时刻该帧画面VO的形状、运动、纹理等三类信息进行编码。

·形状编码

　　一个从场景中截取出的VOP VOP是一个不规则的形状。

　　表示VOP的形状可用二值图表示，或者用灰度图表示。通常用8位表示灰度，可有256级灰度分层，二值图形状只需一位表示。如果采用一位表示，约定0表示非VOP区域，也就是背景，1表示VOP区域。对于用灰度图表示的VOP形状，0表示非VOP区域，1～255表示VOP区域，以灰度表示 VOP形状时，物体与背景的边界轮廓线比二值表示方式要柔和。

　　MPEG-4标准形状编码方法是用位图法，VOP被一个边框框注，边框长、宽均为16的整数倍，同时保证边框最小。位图表示法实际上就是一个边框矩阵，矩阵元素为0～255（或0，1），编码变为对这个矩阵的编码。在现在的标准中，矩阵被分为16×16的块进行编码。

·运动估计和运动补偿

　　MPEG-4标准中的VOP运动估计和运动补偿与以前的压缩标准一样。类似于以前的压缩标准的三种帧格式：I（帧内）帧，P（预测）帧，B（双向预测帧）帧，MPEG-4中也有相应的帧格式，I-VOP，P-VOP，B-VOP，表示运动补偿类型的不同。

·纹理编码

　　纹理信息有两种，可能是内部编码的I-VOP的象素值，也可能是帧间编码的P-VOP，B-VOP的运动估计残差值。为了达到简单，高性能，容错性好的目的，仍采用基于分块的纹理编码。
VOP边框仍被分成16×16的宏块，宏块由8×8的子块构成。
对每一个宏块，可以分成3种情况：

VOP外，边框内的块：不编码；
VOP内的块：传统DCT方法编码；
部分在VOP内，部分在VOP外的块，目前使用的方法是采用重复填充的方法将该块在VOP外的部分进行填充，再用DCT编码。

　　这样是为了增加块内数据的空域相关性从而利于DCT变换和量化后的编码。

11.3.4、MPEG-4的功能

最大的特点，基于内容的交互性：

· 基于内容的多媒体数据访问工具：通过使用各种访问工具，MPEG-4提供基于音像内容的数据访问，例如：索引查询等。

· 基于内容的处理和比特流编辑：MPEG-4提供"MPEG-4句法描述语言"和编码模式，以支持基于内容的处理和比特流编辑，且不需要代码转换。这个特点使得它的应用领域得到很大的增加，例如，数字特技（对某些物体进行特殊的处理）。

· 改进的时间随机访问：MPEG-4提供一种有效的方法，可以在有限的时间内，且以较高的分辨率，随机访问视频序列的部分内容。包括在很低的比特率下的随机访问。

11.4、MPEG-7标准

11.4.1、产生背景

·传统的基于关键字或文件名的检索方法显然不适于数据量庞大，又不具有固定结构特征的声像数据。因此，近年来多媒体研究的一个热点是声像数据的基于内容的检索。

·实现这种基于内容的检索的一个关键性的步骤是要定义一种描述声像信息内容的格式，而这与声像信息的存储形式（或者说是编码方式）又是密切相关的。

·国际标准化组织ISO/IEC领导下的运动图像专家组MPEG，在推出影响极大的MPEG-1，MPEG-2，MPEG-4之后，又制定了支持多媒体信息基于内容检索的编码方案：MPEG-7。

11.4.2、MPEG-7的目标

　　MPEG-7的正式名称：“多媒体内容描述接口”。

　　它将为各种类型的多媒体信息规定一种标准化的描述，这种描述能对信息的内涵进行某种程度上的解释而且能被计算机或其他信息设备传递或访问。利用这种描述，可以支持用户对其兴趣的各种资料进行快速有效的检索。

　　MPEG-7并不针对某种特殊的应用，相反它的标准化的要素将支持尽可能广泛的应用。

　　MPEG-7希望将标准化的描述加到任何类型的多媒体资料上。不管多媒体资料的表示格式如何，或是采用什么压缩形式，加上了这种标准化描述的多媒体数据就可以被索引和检索了。可以处理的媒体包括：静止图像，图形，音频，动态视频等信息，还包括这些元素的组合。

　　MPEG-7标准允许对一个事物的描述有不同的细节层次。提供不同级别的区别能力。MPEG-7的描述符不依赖于它所描述的内容的编码方式和存储方式。对一个事物按照它的不同应用领域可用不同类型的特征进行描述，例如对视频信息，低层次描述可有外形、大小、颜色、运动轨迹等，而最高层次的描述将给出语义上的信息。建立在这些描述基础上的模型将使信息的检索、过滤更方便、更容易，用户能够用尽量少的时间找到自己感兴趣的信息。

11.4.3、MPEG-7的优势

　　如同MPEG家族的其他成员一样，MPEG-7是为了满足特定要求的用于表示视听信息的标准。MPEG-7构建于其他标准之上，这些标准包括模拟的、PCM抽样的MPEG-1、MPEG-2和MPEG-4。

　　达到了更高的抽象层次

　　MPEG-1和MPEG-2几乎完全用于数据压缩。MPEG-3则是面向HDTV的，后来因为这些工作可以用MPEG-2标准的工具来完成，所以这一标准被弃用。MPEG-4在译码目标上达到了较高的抽象层次并使用了特定内容技术满足译码满意度。MPEG-7则达到了更高的抽象层次，在一定层次上可以说是一种有感知的译码。

　　MPEG-7能独立于其他MPEG标准来使用

　　从原理上说，MPEG-1、MPEG-2和MPEG-4用于表示信息本身，而MPEG-7则是一种表示信息的信息（the bits for bits）的方法。从另一个角度来看，MPEG-1、MPEG-2和MPEG-4使信息内容变得可用，而MPEG-7可以使您找到想要的信息内容。 MPEG-7能独立于其他MPEG标准来使用，甚至可以用来描述模拟电影。例如以对象的方式来描述视听数据就非常适于使用MPEG-7标准，这种描述方法是目录处理的基础。

　　MPEG-7标准可以用于提高先前MPEG系列标准的功能

　　另外，MPEG-7标准可以用于提高先前MPEG系列标准的功能。在MPEG-4和MPEG-7之间可能存在着许多联系。绝大多数像MPEG- 4这样的细节描述工具有着很大的潜力，因为它们通过选择一种针对原始材料的一些重要特征进行编码的方法定义了一种内容描述模型。

12、视听通信编码标准H.26X

12.1、H.261简介

　　ITU H.261标准化方案的标题为“64kbps 视声服务用视像编码方式”，又称为P×64kbps视频编码标准。
这里P是一个可变参数，取值范围为1～30 。

·P=1或2时，仅能支持QCIF（176×144）分辨率格式、每秒帧数较低的可视电话；
·当P》6时，则可支持图像分辨率格式为CIF（352×288）的电视会议。

　　P×64kbps视频编码压缩算法采用混合编码方法，即基于DCT的变换编码方法和带有运动预测的DPCM预测编码方法的混合。

　　P×64khps标准的压缩算法与MPEG-1标准有许多共同之处，只是传输速率P×64kbps覆盖较宽的信道频带，而MPEG-1是基于较窄的频带上传输。

12.2、P×64kbps视频压缩编码算法

　　下面是H.261标准编码器的结构图：

　　P×64kbps视频压缩编码方案包括信源编码和统计（熵）编码两部分。信源编码采用有失真编码方法，又分为帧内编码和帧间编码。

·帧内编码算法，一般采用基于DCT 8×8块的变换编码方法。8×8块的DCT系数经线性量化，经视频多路编码器进入缓冲器，通过掌握缓冲器空满度，改变量化器的步长来调节视频信息比特流，与信道传输速率匹配。帧内编码的结果送到视频多路解码器，经解码后重建图像存入缓冲区以备帧间编码使用。

·帧间编码，采用混合编码方法可减少时域的冗余信息。DPCM编码对当前宏块与该宏块的预测值的误差进行编码，当误差大于某阈值时，对误差进行 DCT变换，量化处理，然后和运动向量信息一起送到视频多路编码器，必要时可使用循环滤波器，滤掉高频噪声，改善图像质量，熵编码利用信号统计特性来减少比特率，其原理在 JPEG和MPEG中已经叙述过。

　　利用CIF格式，可以使各国使用的不同制式的电视信号变换为统一的中间格式，然后输入给编码器，从而使编码器本身不必意识信号是来自哪种制式的。CIF的使用如图所示。

12.3、视频层次数据结构

　　P×64kbps标准采用层次块的视频数据结构形式，使高压缩视频编码算法得以实现。另一方面，P×64kbps标准的视频编码的最重要的任务是要定义一个视频数据结构，保证解码器对接收到的比特流进行没有二义性的正确解码。

　　从图中可以看出，一幅QCIF图像，以4个层次数据结构表示。

（1）、图像层。包含图像头和3个块组数据块。
（2）、块组层。每个块组包含块组头的3×11个宏块。宏块在块组中的排列见图。
（3）、宏块层。每个块含有宏块，4个8×8亮度块和2个8×8色度块。
（4）、块层。含有块的DCT系数，其后是一个定长码EOB来标志块结束，DCT系数利用二维VLC编码。

12.4、视听业务视频压缩标准的发展

　　H.263是ITU-T制定的适合于低速视频信号的压缩标准。它是在H.261基础上扩展而形成的，支持的图像格式包括Sub-QCIF（128×96）、QCIF 、CIF 、4CIF和16CIF（1408×1152）等。其中主要采用的改进技术有：

　　·半像素精度的运动补偿

　　在H.261中，运动矢量的精度为1个像素。要使运动矢量的估值精度达到半个像素，需要将匹配位置邻域的像素进行内插，然后再进一步搜索，找到更精确匹配的位置。精度的提高使运动补偿后的帧间误差减少，从而降低了码率。

　　·不受限的运动矢量（可选项）

　　当运动跨越图像边界时，由运动矢量所确定的宏块位置可能有一部分落在边界之外，此时可以用边界上的像素值表示界外的像素值，从而降低预测误差。

　　·用基于句法的算术编码代替Huffman编码（可选项）

　　这是一种效率较高的自适应算术编码。

　　·先进的预测模式（可选项）

　　对宏块中的4个亮度块分别进行运动估值获得4个运动矢量。如果4个运动矢量所得到的预测误差比使用整个宏块所得到的单个运动矢量时的预测误差小得多，则传输4个运动矢量。虽然此时传输运动矢量的比特数增加一些，但由于预测误差的大幅度降低，仍然使总码率降低。

　　·PB帧模式（可选项）

　　虽然使用双向预测的B帧可以降低码率，但是却要引人附加的编码延时和解码延时。为了降低延时，H.263采用了P帧和B帧作为一个单元来处理的方式，即将P帧和由该帧与上一个P帧所共同预测的B帧一起进行编码。

13、声音压缩编码技术

13.1、声音编码概要

　　TU-TSS为声音编码和压缩制定了一系列话音数据编译码标准。其中G.711使用μ律和A律压缩算法，信号带宽为3.4kHz，压缩后的数据率为64kbps；G.721使用ADPCM压缩算法，信号带宽为3.4kHz，压缩后的数据率为32kbps；G.722使用ADPCM压缩算法，信号带宽为7kHz，压缩后的数据率为64kbps。

　　通常把已有的话音编译码器分成以下三种类型：波形编译码器，音频编译码器和混合编译码器。一般来说，波形编译码器的话音质量高，但数据率也很高；音源编译码器的数据率很低，产生的合成话音音质介于它们之间。

13.1.1、波形编译码器

　　波形编译码的想法，不利用生成话音信号的知识产生而是产生一种重构信号，使它的波形和原始话音波形尽可能一致，这种编译码器的复杂程度低，数据速率在16KBPS，质量高，低于这个数据率时音质急剧下降。

　　波形编码代表：PCM（脉冲编码调制）：对输入信号进行采样和量化。典型的窄带话音带宽限制在4KHZ，采样频率8KHZ，要获得高一点的音质，样本精度用12位，数据率96KHZ,可采用非线性量化来降低数据量。例如对数量化器，样本精度8位。64KBPS,重构话音信号与原始的语音信号没有什么差别。

13.1.2、音源编译码器

　　通过话音波形的信号中提取生成话音的参数，使用这些参数通过话音生成模型重构出话音。在模型中声道被等效成一个随时间变化的滤波器，叫时变滤波器，激励函数是由白噪声，无声话音段激励或者由有声话音段激励。传送的是解码器的信息就是滤波器的规格、发声或不发声的标志和有声话音的音节周期，每 10～20ms更换一次。数据率2.4BPS，产生的语音质量很低，可以听懂而已。增加数据率对于话音质量没有用，因为这是由模型限制的，但保密性好。

13.1.3、混合编码器

　　企图填补波形编译码和音源编译码之间的间隔。解决数据率和音质之间的问题。为了提供高话音的质量，降低数据率，采用时域合成-分析编译码器（Abs），这种编译码器使用的声道线性预测滤波器模型与线性预测编码（LPC）使用的模型相同。企图寻找一种激励信号，使用这种信号激励产生的波形尽可能接近原始话音的波形。

13.2 声音编码技术

13.2.1、G.721 ADPCM编码器

　　ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术。

　　CCITT为此制定了G.721推荐标准，这个标准叫做32kb/s自适应差分脉冲（Differential Pulse Code Modulation to 24and 40kb/s for Digital Circuit Multiplication Equipment Application），使用该标准的编码器的数据率可降低到40kb/s和24kb/s 。

　　CCITT推荐的G.721 ADPCM标准是一个代码转换系统。它使用ADPCM转换技术，实现64kb/s A律或μ律PCM 速率和32kb/s速率之间的相互转换。

13.2.2、子带编码（SBC）

　　子带编码主要过程是：

①、使用一组带通滤波器（band-pass filter，BPF）把输入音频信号的频带分成若干个连续的频段，每个频段称为子带。
②、对每个子带中的音频信号采用单独的编码方案去编码。
③、在信道上传送时，将每个子带的代码复合起来。
④、在接收端译码时，将每个子带的代码单独译码，然后把它们组合起来，还原成原来的音频信号。

　　采用对每个子带分别编码的好处：

·第一、对每个子带信号分别进行自适应控制，量化阶（quantization step）的大小可以按照每个子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化，以减少总的量化噪声。
·第二、可根据每个子带信号在感觉上的重要性，对每个子带分配不同的位数，用来表示每个样本值。例如，在低频子带中，为了保护音调和共振峰的结构，就要求较小的量化阶、较多的量化级数，即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音，通常出现在高频子带中，对它分配较少的位数。

13.2.3、子带－自适应差分脉冲编码调制（SB-ADPCM）

　　采样率为8kHz、8位/样本、数据率为64kb/s的G.711标准是CCITT为话音信号频率为（300～3400）Hz制定的编译码标准，这属于窄带音频信号编码。现代的话音编码技术已经可以减少数据率，而又不至于显著降低音质。CCITT推荐的8KHz采样率、4位/样本、32kb /s的G.721标准，以及G.721的扩充标准G.723，都说明了话音压缩编码技术的进展。

　　G.722是CCITT推荐的音频信号编码译码标准。该标准是描述音频信号带宽为7kHz、数据率为64kb/s的编译码原理、算法和计算细节。

　　G.722的主要目标是保持64kb/s的数据率，而音频信号的质量要明显高于G.711的质量。G.722标准把音频信号采样频率由8kHz 提高到16KHz，是G.711PCM采样率的2倍，因而要被编码的信号频率由原来的3.4kHz扩展到 7kHz。这就使音频信号的质量有很大改善，由数字电话的话音质量提高到调幅（AM）无线电广播的质量。对话音信号质量来说，提高采样率并无多大改善，但对音乐一类信号来说，其质量却有很大提高。

　　G.722编译码系统采用自带自适应差分脉冲编码调制技术，把频带分成两个等带宽的子代分别是高频子带和低频子带。在每个等带宽的子带中的信号都用ADPCM进行编码。

13.2.4、G.722 SB－ADPCM编译码器

　　为了适应可视电话会议日益增长的迫切需要，1988年CITT为此制定了G.722推荐标准，叫做“数据率为64kb/s的7KHz声音信号编码”（7kHz Audio-coding with 64kb/s）。这个标准把话音信号的质量由电话质量提高到AM无线电广播质量，而其数据传输率仍保持为64kb/s 。

　　宽带话音是指带宽在（50～7000）Hz的话音，这种话音在可懂度和自然度方面都比带宽为（300～3400）Hz的话音有明显的提高, 也更容易识别对方的说话人。

13.2.5、线性预测编码（LPC）

　　线性预测编码是一种非常重要的编码方法。从原理上讲，LPC是通过分析话音波形来产生声道激励和转移函数的参数，对声音波形的编码实际就转化为对这些参数的编码，这就使声音的数据量大大减少。在接收端使用LPC分析得到的参数，通过话音合成器重构话音。

　　合成器实际上是一个离散的随时间变化的时变线性滤波器，它代表人的话音生成系统模型。时变线性滤波器既当作预测器使用，又当作合成器使用。分析话音波形时，主要是当作预测器使用。随着话音波形的变化，周期性地使模型地参数和激励条件适合新的要求。