干货 | 手把手教你iOS自定义视频压缩

法国丁香lilas 2018-09-05

展开全文

作者简介

孙龙波，携程内容信息研发部 Native 开发 leader。目前主要负责携程攻略，行程，视频直播等项目的前端开发和团队管理。

一、前言

随着抖音，快手等APP的迅猛发展，短视频在移动端的地位越来越突出。而视频压缩是视频传输中很关键的一步。

本文会通过一个示例引入视频的一些基本概念并做稍微深入的介绍，最终给出在iOS上实现自定义码率和分辨率的视频压缩方案。这篇文章同时也是一个大杂烩，对于很多首次接触视频领域的同学是一个不错的入门文章。

二、传统视频压缩方式的缺陷

1、传统压缩的实现

产品需求：不管原视频的清晰度如何，压缩后的视频码率和分辨率是一样的。大家首先想到的应该是iOS在AVFoundation中已经提供了简单的视频压缩方法，示例代码如下：

正常情况下这段代码不会出现任何问题，但是大家可以用下面的视频做个测试，链接: https://pan.baidu.com/s/1wLVbDFtzROVPo8T1qw6MXA 密码: ij7d。

结果会发现原视频分辨率1080x608，大小 90M，经过上面的代码压缩后变成了分辨率960x540, 大小147M！分辨率降低但是文件大小增加了！输出的日志如下：

2、压缩参数分析

问题出在哪里？这个视频有什么特殊的地方？我们尝试用mediainfo工具查看压缩前后两个视频的详细参数。

原视频参数信息

压缩后的视频参数:

3、视频参数详解

首先我们要清楚截图中几个关键指标的含义。

1）码率（bit rate）是指数据传输时单位时间传送的数据位数，单位是bit per second(bps)。简单的说码率=视频文件大小/视频时长。

2）帧率（frame rate）指每秒钟有多少个画面，单位Frame Per Second简称FPS。视频实际是由一组连续的图片组成的，由于人眼有视觉暂留现象，画面帧率高于16的时候大脑就会把图片连贯成动画，高于24大脑就认为是非常流畅了。所以24FPS是视频行业的标准。

但这并不是人眼的极限，帧率继续提高能获取更好更流畅的体验，直到人眼无法区别（极限因人而异，美国空军曾做过一项测试，极限大概是220FPS，正常人远低于这个数字）。所以游戏行业为了更逼真的效果获取更好的用户体验将标准定为30FPS

3）分辨率：习惯上我们说的分辨率是指图像的高/宽像素值，严格意义上的分辨率是指单位长度内的有效像素值ppi（每英寸像素Pixel per inch）。差别是，图像的高/宽像素值和尺寸无关，但单位长度内的有效像素值ppi和尺寸就有关了。比如，同样Width x Height的图片，尺寸越大ppi越小。

4、视频编码标准

解释完上面几个概念大家可以得出比较直观的结论，帧率相同的情况下（压缩前后都是30FPS），分辨率越高码率越大，但是截图的中的参数显示码率大的分辨率低。仔细对比两个视频的参数会发现唯一有区别的是 Format profile，这个参数才是问题的根源。

在介绍这个参数之前需要了解另一个概念，H264视频编码。所谓视频编码方式就是指通过特定的压缩技术，将某个视频格式的文件转换成另一种视频格式文件的方式。

如果视频不编码会出现什么后果？我们来计算一下，以原视频为例，每秒钟包含了30张1080x600的图片，那一秒钟的视频大小应该是 1080x600*30/(1024*1024*8) = 2.3 MB. 这个视频有3分42秒，文件大小应该是 2.3*222 = 510MB 远超过95M。既然编码是必须的那编码标准有哪些呢？

国际上制定视频编解码技术的组织有两个，一个是“国际电联（ITU-T）”，它制定的标准有H.261、H.263、H.263 等，另一个是“国际标准化组织（ISO）”它制定的标准有MPEG-1、MPEG-2、MPEG-4等。

而H.264则是由两个组织联合组建的联合视频组（JVT）共同制定的新数字视频编码标准，所以它既是ITU-T的H.264，又是ISO/IEC的MPEG-4高级视频编码（Advanced Video Coding，AVC）的第10 部分。所以大家在用不同工具查看同一个视频时有时候会显示AVC有时候会显示H.264实际是同一种编码方式。

5、H264编码详解

而H264最大的优势就是低码率情况下提供高质量的视频图像。怎么做到的？这个问题比较复杂可以新开一篇文章来专门介绍了。有兴趣的大家可以看一下这篇介绍：http://read./downloads147/ebook/635957/%E6%96%B0%E4%B8%80%E4%BB%A3%E8%A7%86%E9%A2%91%E5%8E%8B%E7%BC%A9%E7%BC%96%E7%A0%81%E6%A0%87%E5%87%86H.264.pdf

总的来说编码流程可以分为五部分：帧间和帧内预测（Estimation）、变换（Transform）和反变换、量化（Quantization）和反量化、环路滤波（Loop Filter）、熵编码（Entropy Coding）。而H264为了满足不同设备不同场景的需要（比如直播注重实时性，存储注重压缩比）定义了多种编码层次也就是Profile，官方给Profile的定义是：

The standarddefines a set of capabilities, which are referred to as profiles,targeting specific classes of applications. These are declared as a profilecode (profile_idc) and a set of constraints applied in the encoder. This allowsa decoder to recognize the requirements to decode that specific stream.

Profiles可以细分为十几种，实际使用的主要有以下四种，

1）BaslineProfile：支持I/P 帧，只支持无交错（Progressive）和CAVLC

Extended Profile：支持I/P/B/SP/SI 帧，只支持无交错（Progressive）和CAVLC

2）MainProfile：提供I/P/B 帧，支持无交错（Progressive）和交错（Interlaced），也支持CAVLC 和CABAC

3）High Profile：在mainProfile 的基础上增加了8x8内部预测、自定义量化、无损视频编码和更多的YUV 格式；

大家对里面的术语可能不太理解，简单介绍下。

视频压缩很重要的一个就是帧间预测，也就是视频相邻的几帧有很大的相关性，变化不会太大，所以存在很多冗余信息，压缩要做的就是去除这些冗余信息。帧类型主要有以下几种

1）I帧表示关键帧，这一帧保留完整的画面数据，解码时只需要本帧数据就可以完成

2）P帧，前向预测帧，表示的是这一帧跟之前的一个关键帧（或P帧）的差别，解码时需要用之前的画面叠加上本帧定义的差别，生成最终画面。

3）B帧是双向预测帧，也就是B帧记录的是本帧与前后帧的差别，要解码B帧，不仅要取得之前的画面，还要解码之后的画面，通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高，但是解码时比较耗费CPU 。

总结起来就是Profile 越高，压缩比就越高，但是编码、解码时要求的设备性能也就越高，编码、解码的效率也就越低。

6、Profile与Level详解

回到之前的两个视频信息，profile分别是main@L3.1，high@L3.1，现在我们搞清楚了main和high是profile，L3.1是什么？这个是profile的码流级别，同样给出官方的定义：

As the term is used in the standard, a 'level' is aspecified set of constraints that indicate a degree of required decoderperformance for a profile. For example, a level of support within a profilespecifies the maximum picture resolution, frame rate, and bit rate that adecoder may use. A decoder that conforms to a given level must be able todecode all bitstreams encoded for that level and all lower levels.

简单的说level就是对每个profile的能力细分。

而3.1规定的最高标准如下：

Level

Max. decoding speed

Max. frame size

Max. video bit rate for
video coding layer (VCL)
kbit/s (Baseline, Extended and
Main Profiles)

Examples for high resolution
@ highest frame rate

Toggle additional details

Luma samples/s

Macroblocks/s

Luma samples

Macroblocks