音视频开发---音视频同步算法

开花结果 2023-03-09 发布于北京

展开全文

本文是对音视频同步算法的总结，以阅读ffplay.c源码为基础，结合各位博主的分析，逐渐深入理解同步算法原理，并根据自身理解，编写一套简易的视频播放器，用于验证音视频同步算法。

ffplay简介

ffplay是FFmpeg提供的开源播放器，基于FFmpeg和SDL进行视频播放，是研究视频播放器，音视频同步算法的很好的示例。ffplay源码涉及到很多音视频的基本概念，在基础理论缺乏的情况下分析起来并不容易，在分析ffplay源码之前，要对音视频的相关概念有所了解，关于音视频的基本知识，在网络上有很多，也可以参考我的其他文章，这些也是我在学习中的经验总结。

在ffmpeg4.1.3中，ffplay源码约3700行，非常的小巧，网上关于ffplay原理分析的文章也有很多，诸如：

雷神的博客

ITRonnie的 ffplay系列博客

ffplay源码分析

比较系统的介绍了ffplay，是学习ffplay很好的资料。

这里不再详细的分析ffplay的源码，仅按照自己的理解对音视频同步算法进行总结，并基于ffplay，自己动手编写一个简易视频播放器，对音视频同步算法进行验证。

为什么要做音视频同步

如果仅仅是视频按帧率播放，音频按采样率播放，二者没有同步机制，即使一开始音视频是同步的，随着时间的流逝，音视频会渐渐失去同步，并且不同步的现象会随着时间会越来越严重。这是因为：

一、播放时间难以精确控制

二、异常、误差会随时间累积。

所以，必须要采用一定的同步策略，不断对音视频的时间差作校正，使图像显示与声音播放总体保持一致。

音视频同步算法

音视频同步算法的核心在于准确计算出音频与视频播放时间的偏差，再根据这个偏差对双方进行调整，确保双方在你追我赶的过程中保持同步。

1. 音视频同步介绍

视频同步到音频：即以音频为主时间轴作为同步源

音频同步到视频：即以视频为主时间轴作为同步源

音频和视频同步到系统时钟：即以系统时钟为主时间轴作为同步源

ffplay默认采用第一种同步方式，本节主要阐述视频同步到音频方式。为什么大多播放器要采用视频同步到音频呢，因为音频的采样率是固定的，若音频稍有卡顿，都会很明显的听出来，反则视频则不如此，虽然表面上说的是25P（每秒25帧），不一定每一帧的间隔就必须精确到40ms（所以每帧间隔大约40ms，事实上，也很难做到精确的40ms），即便偶尔视频间隔延时大了点或小了点，人眼也是察觉不出来的，所以视频的帧率可以是动态的，并不是严格标准的！

视频同步到音频，即以音频作为主时间轴，尽量不去干扰音频的播放，音频采用独立的线程独自解码播放(音频播放的速度在参数设置完毕后是固定的，因此我们也很容易计算音频播放的时间),在整个过程中，根据视频与音频时间差，来决策如何改变视频的播放速度，来确保视频与音频时间差控制在一定范围内，当偏移在-90ms（音频滞后于视频）到+20ms（音频超前视频）之间时，人感觉不到视听质量的变化，这个区域可以认为是同步区域；当偏移在-185到+90之外时，音频和视频会出现严重的不同步现象，此区域认为是不同步区域。这里我们认为偏移diff在'±一个视频帧间隔’范围内即认为是同步的，如下图所示：

2. 音视频时间偏差计算

同步系统的关键就在于计算视频与音频时间偏差diff，在ffplay.c源码中，是通过函数compute_target_delay实现的，函数源码如下：

根据自身的理解，结合实际测试，得出diff的计算方法：

当前视频帧pts：frame->pts * av_q2d(video_st->time_base)

当前视频帧至今流逝的时间：代表当前视频帧从开始显示到现在的时间，在ffplay中函数get_clock(&is->vidclk)给出了具体实现，在本次实验中，通过nowtime - last_showtime来表示流逝的时间，由于我们是在视频显示后立即计算diff，这个流逝的时间几乎可以忽略不计，可以使用0表示。

音频帧播放时间 = 音频长度/采样率

当前音频帧播放完毕时间= 当前音频帧的pts + 当前音频帧长度 / 采样率

= af->pts + (double) af->frame->nb_samples / af->frame->sample_rate;

（在计算音频帧长度时需要考虑采样率，通道数，样本格式）

音频缓冲区中未播放数据的时间：在ffplay.c中，采用如下公式来获取：

set_clock_at(&is->audclk, is->audio_clock - (double)(2 * is->audio_hw_buf_size + is->audio_write_buf_size) / is->audio_tgt.bytes_per_sec, is->audio_clock_serial, audio_callback_time / 1000000.0);

缓冲区数据总长度=SDL的A，B缓冲区总长度 + 当前音频帧尚未拷贝到SDL缓冲区的剩余长度aduio_write_buf_size

到这里，我们就可以计算得到音视频的播放时间偏差diff，结合上面的偏差图，我们很容易判断出是视频落后于音频，还是音频落后于视频。

3. 量化视频播放的时间延时

通过第2步我们已经计算出音视频的时间偏差，接下来我们就要根据这个偏差来量化视频延时的时间，来控制下一个视频帧显示的时间。

我们参考ffplay.c中的代码片段：