音视频技术知识网络的探索路径

天悔大哥cqm 2018-12-28

展开全文

与生活紧密相连的音视频，为何有那么多格式？直播、点播以及即时视频其中又有怎样的机制支撑？面对纷繁复杂的音视频知识，应该如何学起？快速探索，音视频技术不再神秘。

前言

面对一门技术，我们熟悉而陌生，我们能够熟练的基于平台的API完成各种各样的需求，掌握平台特性、框架与原理。但随着技术点不断深入，却发现自己存在基础性与深度性的知识盲区。

局限于平台API开发，并不能使我们走的很远。突破技术成长必经的瓶颈期，关键在于技术沉淀与对业务方向相结合，需要我们对知识积累与深入。本文分享了笔者对音视频技术知识网络的探索路径，希望能给大家带来帮助。

音视频技术知识网络的探索路径

一、采集 - 数据从哪里来？

1.1 采样原理

定义：对连续变化图像在空间坐标上做离散化处理，将模拟信号转变成数字信号的过程，即为图像进行采样。

通俗来说：采集就是将看到的东西转成二进制流的过程。

1.2 基础概念

1.2.1 图像

「图像」是个集合的概念，帧、顶场、底场都可以称为图像。

帧一帧通常是一幅完整图像，当采用逐行扫描方式扫描，每次扫描得到的信号就是一帧。
顶场与底场采集视频信号时，扫描方式分为逐行扫描与隔行扫描。如果采用逐行扫描，得到的则是一幅完整的图像；而采用隔行扫描（奇、偶数行），则扫描下来的一帧图像就被分为了两个部分，这每一部分就称为「场」，根据次序分为：「顶场」和「底场」
隔行扫描每一帧被分割为两场画面交替显示。每一帧被分割为顶场与底场，通常是先扫描奇数行得到第一场，然后扫描偶数行得到第二场。由于视觉暂留效应，人眼将会看到平滑的运动而不是闪动的半帧半帧的图像。但是这时会有闪烁出现，尽管不容易被察觉，但会使得人眼容易疲劳。当屏幕的内容是横条纹时，这种闪烁特别容易被注意到，并且会有锯齿瑕疵。
逐行扫描则是将每帧的所有画面同时显示。每次都显示整个扫描帧，如果逐行扫描的帧率和隔行扫描的场率相同，人眼将看到比隔行扫描更平滑的图像，相对于隔行扫描来说闪烁较小。每一帧图像均是由电子束顺序地一行接着一行连续扫描而成，这种扫描方式称为逐行扫描。
两者区别举个栗子，25fps 100行帧图像，那么隔行扫描需要一秒扫描50次，但每次只需要扫描50行。而逐行扫描则只需要扫描25次，但每次需要扫描100行。结论：隔行扫描扫描频率为逐行扫描双倍，信道带宽为逐行扫描的一半。在图像体验降低不多的情况下，信道带宽减少了一半，使得设备成本减少，因此，早期大多数显示器都采用隔行扫描。
传送门：逐行扫描、隔行扫描详细讲解

音视频技术知识网络的探索路径

逐行扫描与隔行扫描

音视频技术知识网络的探索路径

顶场与底场，隔行扫描锯齿瑕疵

1.2.2 颜色模型

RGB颜色模型

音视频技术知识网络的探索路径

RGB模型

RGB分别代表红绿蓝，每种颜色需要用3个数字表示，一个数字占用1字节，一种颜色则需要3字节，24位。

更高效的颜色模型？YUV

YCbCr颜色模型

YCbCr颜色模型是YUV家族的一员，关键特点在于它亮度信号Y与色度信号U、V相互分离。当缺失U、V，仅有Y信号时，也能够表示出黑白图像。

Y = kr\*R + kg\*G + kb\*B

Y 即「亮度」，kr、kg、kb 即 R、G、B 的权重值。

Cr = R – Y; Cg = G – Y; Cb = B – Y;

疑问：对比RGB模型，YCbCr模型每个像素也需要3个信号表示，为什么说该模型更高效？

优化思路

人眼对亮度分辨率敏感度高于色彩敏感度。

音视频技术知识网络的探索路径

视觉特性

基于人眼视觉特性，很明显，我们需要从颜色方面入手，于是提出“色度取样”，使颜色存储减半或者更多。容易实现，编码压力较小，收益较高。

音视频技术知识网络的探索路径

色度取样

优化实现

我们知道显示器扫描原理分为逐行扫描与隔行扫描，每条扫描线被扫描时，色度数值传送频率会比亮度低，颜色取样方式有多种，取样方式通常基于亮度值，以4:X:Y的形式描述，X和Y是每两个色度通道中的数值的相对数量：

音视频技术知识网络的探索路径

显示器扫描显示原理

继续举个栗子：

音视频技术知识网络的探索路径

YCbCr像素点

我们有这样一幅图片，上面有像素阵列：

音视频技术知识网络的探索路径

原始像素阵列

音视频技术知识网络的探索路径

YCbCr 4:4:4

会有以下几种采样优化方式：

音视频技术知识网络的探索路径

4:2:2优化后像素阵列

音视频技术知识网络的探索路径

4:2:2取样方式

音视频技术知识网络的探索路径

4:2:0优化后像素阵列

音视频技术知识网络的探索路径

4:2:0取样方式

上图可以很直观的看出：采用YCbCr颜色模型后，并不需要每个像素都存有3个分量，颜色分量通过“色度取样”后，有效的减少了颜色分量的存储。

1.3 图像感知与获取

音视频技术知识网络的探索路径

成像传感器

通过电功率和对特殊类型检测能源敏感的传感器材料组合。
将输入的光照能量变为特殊的电压波形。
波形的幅度和空间特性都与感知的物理现象有关。为了产生数字图像，接下来需要进行
取样与量化
处理。

1.4 取样与量化

举个栗子，对于黑白图像图(a)为连续图像，如果需要转换成数字形式，需要几步主要操作：

音视频技术知识网络的探索路径

取样与量化

取样：
(a)图上沿AB线段等间隔对该图像取样，得到灰度级曲线(b)
量化：
(c)图右侧将灰度分为8个灰度级，再横向每一取样的连续灰度值，量化为8个灰度之一，最终得到(d)图，感知器输出的量化完成流产生数字图像的过程。

音视频技术知识网络的探索路径

a. 图像投影至传感器阵列 b. 图像取样与量化结果

二、渲染 - 数据如何展现？

2.1 播放器原理

播放器播放从互联网上播放视频，需要经过：解协议、解封装、解码、音视频同步这几个核心步骤。

音视频技术知识网络的探索路径

互联网播放视频流程

解协议：
将流媒体协议数据，解析为标准封装格式数据。流媒体协议传输音视频数据同时，也会传输一些信令数据，其中包括：播放控制、网络状态描述等。常见流媒体协议如HTTP、RTMP或MMS等。
解封装：
将解协议得到的标准封装格式数据，分离为音频流压缩编码数据与视频流压缩编码数据。封装格式也称为容器，即是将已经编码压缩好的视频轨与音频轨按照一定格式放到一个文件中。
需要注意的是：
就算是同一个封装格式，其编码方式并不一定一样，我们可以从后缀名中直观的看到视频文件到封装格式。常见封装格式：avi，rmvb，mp4，flv，mkv等。
解码：
就是将音视频压缩编码数据，解码成为非压缩的音视频原始数据。音频编码标准有AAC，MP3，AC-3等；视频编码标准包含H.264，MPEG2，VC-1等。编解码是整个流程最核心与最复杂的环节。
音视频同步：
根据解封装过程获取的参数信息，将解码出来的音视频数据进行同步对其，最终将数据传送到系统，由系统调用硬件进行播放。

2.2 视频编码方式

视频编解码过程是数字视频压缩与解压缩的过程。

选取音视频编码方案时，需要考虑：视频的质量、码率、编码算法和解码算法的复杂度、针对数据丢失和错误的鲁棒性（Robustness）、编辑的方便性、随机访问、编码算法设计的完美性、端到端的延时以及其它一些因素。

2.2.1 H.26X系列概述

H.26X 系列，由国际电传视讯联盟远程通信标准化组织(ITU-T)主导，包括 H.261、H.262、H.263、H.264、H.265。

H.261，主要用于老的视频会议和视频电话系统。是第一个使用的数字视频压缩标准。实质上说，之后的所有的标准视频编解码器都是基于它设计的。
H.262，等同于 MPEG-2 第二部分，使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统中。
H.263，主要用于视频会议、视频电话和网络视频相关产品。在对逐行扫描的视频源进行压缩的方面，H.263 比它之前的视频编码标准在性能上有了较大的提升。尤其是在低码率端，它可以在保证一定质量的前提下大大的节约码率。
H.264，等同于 MPEG-4 第十部分，也被称为高级视频编码(Advanced Video Coding，简称 AVC)，是一种视频压缩标准，一种被广泛使用的高精度视频的录制、压缩和发布格式。该标准引入了一系列新的能够大大提高压缩性能的技术，并能够同时在高码率端和低码率端大大超越以前的诸标准。
H.265，被称为高效率视频编码(High Efficiency Video Coding，简称 HEVC)是一种视频压缩标准，是 H.264 的继任者。HEVC 被认为不仅提升图像质量，同时也能达到 H.264 两倍的压缩率（等同于同样画面质量下比特率减少了 50%），可支持 4K 分辨率甚至到超高画质电视，最高分辨率可达到 8192×4320（8K 分辨率），这是目前发展的趋势。
详解待整理另外文章

2.2.2 MPEG系列概述

MPEG 系列，由国际标准组织机构(ISO)下属的运动图象专家组(MPEG)开发。

MPEG-1 第二部分，主要使用在 VCD 上，有些在线视频也使用这种格式。该编解码器的质量大致上和原有的 VHS 录像带相当。
MPEG-2 第二部分，等同于 H.262，使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统中。
MPEG-4 第二部分，可以使用在网络传输、广播和媒体存储上。比起 MPEG-2 第二部分和第一版的 H.263，它的压缩性能有所提高。
MPEG-4 第十部分，等同于 H.264，是这两个编码组织合作诞生的标准。
详解待整理另外文章

2.3 音频编解码方式

除了视频，音频当然也需要编码，而音频常用编码格式：

AAC，英文全称 Advanced Audio Coding，是由 Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发，在 1997 年推出的基于 MPEG-2 的音频编码技术。2000 年，MPEG-4 标准出现后，AAC 重新集成了其特性，加入了 SBR 技术和 PS 技术，为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC。（AAC详解待整理另外文章）
MP3，英文全称 MPEG-1 or MPEG-2 Audio Layer III，是当曾经非常流行的一种数字音频编码和有损压缩格式，它被设计来大幅降低音频数据量。它是在 1991 年，由位于德国埃尔朗根的研究组织 Fraunhofer-Gesellschaft 的一组工程师发明和标准化的。MP3 的普及，曾对音乐产业造成极大的冲击与影响。
WMA，英文全称 Windows Media Audio，由微软公司开发的一种数字音频压缩格式，本身包括有损和无损压缩格式。

三、处理 - 数据怎么加工？

音视频加工处理，是业务的核心需求，对开发者自由度最大的一个环节，通过音视频处理，可以实现各种各样炫酷的特效。

图像、视频常见处理方式：美化、裁剪、缩放、旋转、叠加、编解码等。

音频常见处理方式：重采样、去噪，回声消除，混音、编解码等

常见框架：