视频编码的基础知识

常有理 2020-01-04

展开全文

在流媒体的平台搭建过程中，编码是无法避免的一个话题，为什么要编码？熟悉流媒体的朋友都知道，编码是为了压缩原有输入源的大小，使其更好的适应网络带宽，特别是在网络带宽不是很好的情况，所以学习流媒体，编码技术的理解和学习显得很重要，首先我们就来讲讲编码的基础知识。这里以H264为例子来讲解。

H264是什么?

H264是市面上常见的编码算法，其中编码后的文件，能够高效的在网络实现传输，在当前的视频直播、安防、教育等领域应用十分广泛，具有重要的应用价值。与MPEG-4不同，H264重点考虑了压缩的高效率和高可靠的网络传输。H264有三个不同档次，分别是'baseline'、'profile'、'main'，分别都应用在不同实际的场景。

视频编码的基础知识

h264编码器

视频编码的基础知识

编码基本流程

一般编码的基本流程分为宏块切割，时域变换频域，量化，熵编码等步骤。常用的变换，比如DCT变换，DCT变换可以减少计算量，降低解码时的预测漂移。量化过程在目的是减少图像编码长度，减少冗余信息，这些冗余信息都是视觉中难以察觉的信息。熵编码的基本原理是无损压缩编码方法，生成的码流可以在解码端，无失真的恢复出原数据。熵编码算法一般分为CAVLC和CABAC。下面简单分析下，这两种算法的原理。

CAVLC(基于上下文可变长编码)

主要用于亮度和色度残差数据编码，由于在量化后，非零系数主要在低频部分，高频大部分是0，量化后的数据经过 zig-zag 扫描，DC 系数附近的非零系数值较大，而高频位置上的非零系数值大部分是+1 和-1，CAVLC充分利用残差经过整数变换，量化后数据的特性进行压缩，减少冗余信息。

CABAC(基于上下文自适应二进制)

主要在复杂度和效率之间折中，基于一个查表概率模型。这是一种由大量实验统计而得到的概率模型。在编码时，需要动态选择概率模型进行编码，及时更新响应的概率模型。

H264在复杂的场景中，压缩和编码算法的性能非常优异，当在弱网的场景下，损耗比较小，这是由信道畸变带来的自适应方法比较好。

由上图知道，编码都是以宏块为单位进行的，首先按帧内或帧间预测编码进行处理，其中帧内主要是针对I帧进行，I帧一般是没有压缩或者压缩很低的，因为I帧是一组GOP的参考帧，如果没有了I帧，后面的P帧、B帧也无法解码出来，就会出现马赛克或者解码错误的情况。帧间编码主要是在B帧、P帧的情况。为了充分利用参考帧，H264使用'残差'编码，编码器要想重建图像，就必须使得残差经过反量化，为了去除噪声，提高图像的质量，往往还需要有Fliter，这种方式结构在大量的编码器中有应用，比如经典的FFmpeg，后面的文章我会详细的分析。