分享

音视频开发---音视频同步算法

 开花结果 2023-03-09 发布于北京

      本文是对音视频同步算法的总结,以阅读ffplay.c源码为基础,结合各位博主的分析, 逐渐深入理解同步算法原理, 并根据自身理解, 编写一套简易的视频播放器,用于验证音视频同步算法。

ffplay简介

    ffplay是FFmpeg提供的开源播放器,基于FFmpeg和SDL进行视频播放, 是研究视频播放器,音视频同步算法的很好的示例。ffplay源码涉及到很多音视频的基本概念, 在基础理论缺乏的情况下分析起来并不容易,在分析ffplay源码之前,要对音视频的相关概念有所了解,关于音视频的基本知识,在网络上有很多,也可以参考我的其他文章,这些也是我在学习中的经验总结。

    在ffmpeg4.1.3中,ffplay源码约3700行,非常的小巧,网上关于ffplay原理分析的文章也有很多,诸如:

             雷神的博客

             ITRonnie的 ffplay系列博客

             ffplay源码分析

比较系统的介绍了ffplay,是学习ffplay很好的资料。

    这里不再详细的分析ffplay的源码, 仅按照自己的理解对音视频同步算法进行总结, 并基于ffplay,自己动手编写一个简易视频播放器, 对音视频同步算法进行验证。

为什么要做音视频同步

    如果仅仅是视频按帧率播放,音频按采样率播放,二者没有同步机制,即使一开始音视频是同步的,随着时间的流逝,音视频会渐渐失去同步,并且不同步的现象会随着时间会越来越严重。这是因为:

     一、播放时间难以精确控制

     二、异常、误差会随时间累积。

所以,必须要采用一定的同步策略,不断对音视频的时间差作校正,使图像显示与声音播放总体保持一致。

音视频同步算法

音视频同步算法的核心在于准确计算出音频与视频播放时间的偏差, 再根据这个偏差对双方进行调整,确保双方在你追我赶的过程中保持同步。

1. 音视频同步介绍

        视频同步到音频:即以音频为主时间轴作为同步源

        音频同步到视频:即以视频为主时间轴作为同步源

        音频和视频同步到系统时钟:即以系统时钟为主时间轴作为同步源

    ffplay默认采用第一种同步方式,本节主要阐述视频同步到音频方式。为什么大多播放器要采用视频同步到音频呢,因为音频的采样率是固定的,若音频稍有卡顿,都会很明显的听出来,反则视频则不如此,虽然表面上说的是25P(每秒25帧),不一定每一帧的间隔就必须精确到40ms(所以每帧间隔大约40ms,事实上,也很难做到精确的40ms),即便偶尔视频间隔延时大了点或小了点,人眼也是察觉不出来的,所以视频的帧率可以是动态的,并不是严格标准的!

    视频同步到音频,即以音频作为主时间轴, 尽量不去干扰音频的播放,音频采用独立的线程独自解码播放(音频播放的速度在参数设置完毕后是固定的,因此我们也很容易计算音频播放的时间),在整个过程中,根据视频与音频时间差,来决策如何改变视频的播放速度,来确保视频与音频时间差控制在一定范围内, 当偏移在-90ms(音频滞后于视频)到+20ms(音频超前视频)之间时,人感觉不到视听质量的变化,这个区域可以认为是同步区域;当偏移在-185到+90之外时,音频和视频会出现严重的不同步现象,此区域认为是不同步区域。这里我们认为偏移diff在'±一个视频帧间隔’范围内即认为是同步的,如下图所示:

2. 音视频时间偏差计算

同步系统的关键就在于计算视频与音频时间偏差diff, 在ffplay.c源码中,是通过函数compute_target_delay实现的,函数源码如下:

根据自身的理解,结合实际测试,得出diff的计算方法:

当前视频帧pts:frame->pts * av_q2d(video_st->time_base)

当前视频帧至今流逝的时间: 代表当前视频帧从开始显示到现在的时间, 在ffplay中函数get_clock(&is->vidclk)给出了具体实现,在本次实验中, 通过nowtime - last_showtime来表示流逝的时间, 由于我们是在视频显示后立即计算diff, 这个流逝的时间几乎可以忽略不计,可以使用0表示。

音频帧播放时间 = 音频长度/采样率

当前音频帧播放完毕时间= 当前音频帧的pts + 当前音频帧长度 / 采样率

                                           = af->pts + (double) af->frame->nb_samples / af->frame->sample_rate;

      (在计算音频帧长度时需要考虑采样率, 通道数, 样本格式)

 音频缓冲区中未播放数据的时间: 在ffplay.c中,采用如下公式来获取:

set_clock_at(&is->audclk, is->audio_clock - (double)(2 * is->audio_hw_buf_size + is->audio_write_buf_size) / is->audio_tgt.bytes_per_sec, is->audio_clock_serial, audio_callback_time / 1000000.0);

        缓冲区数据总长度=SDL的A,B缓冲区总长度  +  当前音频帧尚未拷贝到SDL缓冲区的剩余长度aduio_write_buf_size

到这里,我们就可以计算得到音视频的播放时间偏差diff, 结合上面的偏差图,我们很容易判断出是视频落后于音频,还是音频落后于视频。

3. 量化视频播放的时间延时

通过第2步我们已经计算出音视频的时间偏差, 接下来我们就要根据这个偏差来量化视频延时的时间, 来控制下一个视频帧显示的时间。

我们参考ffplay.c中的代码片段:

remaining_time为下一帧播放的延时时间, ffplay.c借助frame_timer += delay来记录当前视频累计播放的时间。

     frame_timer + delay - av_gettime_relative()/1000000.0 :代表下一视频帧需要延时的时间,这里需要减去当前时间,是为了得到定时器或delay的时间。 

     另外, 我们约定任意两个视频帧的间隔至少为10ms,所以才有了:

            *remaining_time = FFMIN(is->frame_timer + delay - time, *remaining_time);

4. 编写简易的视频播放器

    ffplay.c中的同步算法对于初学者而言理解起来还是有些难度的, 结合自身对ffplay.c源码的阅读,以及音视频同步算法的理解, 对上述同步代码进行精简, 亦能达到音视频同步的效果代码片段如下。

我们直接根据diff的值来决策下一帧要延时的时间。

学习期间编写的一个视频播放器,用于研究音视频同步算法,完整代码下载

参考

https://www.cnblogs.com/my_life/articles/6842155.html

ffplay播放器音视频同步原理: https://blog.csdn.net/lrzkd/article/details/78661841

ffplay:  https:///user/5cac7dc26fb9a06885399b1c/posts

ffplay.c 音视频同步


原文链接:https://blog.csdn.net/u011734326/article/details/97137998

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多