聊聊主流音频编解码的发展史和技术选型

麦田的朵拉 2020-12-29

展开全文

0.引言

本篇文章主要讲解国际主流的移动音频编解码的介绍，包括EAAC+、AMR-WB+、G729.1和AVS-P10等部分。同时也在算法层面详细介绍了AVS-P10混合编解码框架、主要组成模块的功能和核也技术特点，及其技术特色和优势。如果对AAC感兴趣，也可以参考下面的文章，文章列表如下:

1.常用音频编解码标准简述

国际上研究和制定移动音频标准的主要组织有国际电信联盟(International Telecommunications Union，ITU)、国际标准化组织(International Origanization for Standardization，ISO)、第三代合作伙伴计划组织(the 3rd Generation Partnership Project，3GPP)、欧洲电信标准化组织(European Telecommunications Standards Institute，ETSI)等。

ITU组织成立于1９％年３月，主要研究移动通信的新技术、新业务和资费等问题，并对送类问题通过建议使全世界的移动通信标准化。ITU发布了一系列的语音编码标准，其中窄带语音编码标准有G711、G721、G723、G726、G727、G728、G729、G723.1；宽带语音编码标准有G722、Ｇ722.1、Ｇ722.2、Ｇ729.1。这些Ｇ系列移动音频编码标准能够满足不同种类的移动语音频通信的应用需求。

这些Ｇ系列移动音频编码标准能够满足不同种类的移动语音频通信的应用需求。ETSI组织主要支持和研究欧洲移动通信项目和标准的制定，其发布最著名的移动通信标准是GSM(Global System for Mobile Communication)，它是早期广泛应用在手机上移动通信标准，是２Ｇ移动通信时代的标志。另外一个规模较大的移动通信标准化组织是3GPP，3GPP组织成立于1998年12月，与多个电信标准组织伙伴签署了《第Ｈ代合作伙伴计划协议》。3GPP最初的工作范围是为第Ｈ代移动通信系统制定全球适用技术规范和技术报告，第Ｈ代移动通信系统是基于发展的GSM核也网络和它们所支持的无线接入技术，随后3GPP的工作范围得到了改进，増加了对移动通信系统长期演进系统的研究和标准制定。3GPP的目标是实现由2G网络到3G网络的平滑过渡，保证未来技术的后向兼容性，支持轻松建网及系统间的漫游和兼容性。为了规范移动音频编码的应用，先后发布了AMR-WB+和EACC+(Enhanced accPlus)这两个移动音频编码标准。

还有一些专口针对某些VoIP应用而设计的语音编码算法，代表性的算法有Speex算法、GIPS（Global IP Sound）公司开发的iLBC（internet Low Bitrate Codec）算法、ISAC（internet Speech Audio Codec）算法以及Skype公司开发的SILK算法等。这些算法主要用在公司发布各种语音频应用软件中，解决一些较为具体的技术问题。

为了提升国内移动音频产业具有自主知识产权的技术核也竞争力，中国AVS(Audio Video Coding Standard)工作组也发布了AVS-P10移动音频编解码标准，为在中国迅速发展的移动通信、移动多媒体业务、无线流媒体等诸多应用提供音频编解码、文件处理和存储格式、音频应用设备的规范和标准。下面将简单介绍典型的国内外移动语音频编码标准。

2.EAAC+标准简介

AAC技术的发展开始于1994年，由FraunhoferIIS、ATT＆T、Dolby和Sony４公司合作开发完成，３年后其新版本成为MPEG标准的一部分，称为MPEG-2 AAC。后来，通过进一步改善和增补，增加了感知噪音替代(Perceptual Noise Substitution，PNS)技术，发展成为MPEG-4音频标准。

MPEG-2/4 AAC_LC和SBR频带扩展工具的结合构成aacPlus。在MPEG-4中作为第10部分的高效音频编解码标准(High Efficiency Advanced Audio Coding，HE　AAC)。aacPlus的提出，不是替代MPEG-4 AAC，而是作为一个超集，能在更低比特率下获得高质量的MPEG-4 AAC音频。它可Ｗ向下兼容传统的MPEG-4 AAC。当参数立体声(PS)工具结合到aacPlus中，就构成了Enhanced aacPlus(也被称为EAAC+)。EAAC+的最佳工作范围是18kbps以上的码率。EAAC+的组成图，如下图所示:

EAAC+主要用于低比特率音频信号编码，主要由MPEG-4 AAC(Advanced Audio Coding，高级音频编码)，MPEG-4的SBR(Spectral Band Rep;ication，频带复制)和MPEG-4的PS(Parametric Stereo，参数立体声)三部分构成，再加上丢包隐藏工具、立体声-单声道混音的工具和重取样工具，可进一步提高压缩效率。

MPEG-4 AAC标准主要采用心理声学模型，AAC对音频信号的能量成分进行分析并利用人耳的＂掩蔽效应＂，这个掩蔽效应在具体解释，Ｗ便从音频信号中找到听觉上可被其它声音掩盖的成分隐藏编码失真，及使用变换除去统计的冗余编码，压缩率可进一步提高，在前面的文章已经讲过。

SBR技术是一种高效的带宽扩展技术，在相同的编码质量的情况下，利用这种高效音频编码技术可节省约一半的速率。使用高级音频编码的音频信号的低频部分，同时该音频信号的高频部分进行编码采用SBR技术，它可以在降低编码质量的情况下，编码率不降低，并进一步提高压缩比。

为了以较低的速率，以达到更好的编码质量，尤其是在立体声模式中，当位速率低于24Kb/s的音频编码质量，编码效果不理想，然后添加PS的技术。PS技术为下一个输入信号通过混合，并提取参数表征的空间信息进行编码，解决了传统的多声道编码效率低的缺点，并在低比特率条件下实现了多声道音频编码，压缩率进一步提高了约30%，并最终使得在16-24kb/s速率下，编码器能达到更好的编码质量。

在编码效率上，AAC的编码效率比MP3提高了30%，此外，附加应用SBR，可以在同样高的音频质量的情况下，使数据率再降低40％，对于比特率立体声音频信号来说，采用PS技术可以使压缩率在原来的基础上再提高30%，因此，EAAC+技术是目前在保证高音频质量情况下压缩比最高的音频编码。这也就是能够广泛应用与流媒体传输的原因了。因此，EAAC+技术是目前在保证高音频质量情况下压缩比最高的音频编码。正因为采用几种新的高压缩比技术，EAAC+技术可以在128Kbps的比特率下传送5.1多频段音频信号，而在32Kbps的比特率下可下载和传送CD质量的音频信号，也可以在24Kbps的比特率传送高保真的立体声信号，甚至能封良好的质量传送混合的化于16Kbps的单声道音频信号，因此这种技术适合于移动音频和数字广播。

3.EAAC+编码流程

编码器工作在双速率模式，其中SBR系统工作在原始采样率，而核心AAC工作在原始采样率的一半。PS工具则使用于低比特率立体声编码。

(1)输入的PCM时域信号首先进入降混音单元，该单元只在输入是立体声信号而选中的音频编码模式是单声道时使用。

(2)然后，进入一个无限脉冲响应(Infinite Impulse Response Filter，IIR)重采样滤波器。该采样器的目的是在输入采样率和编码采样率不同时，调整输入采样率到适合编码处理的最佳采样率。IIR重采样器可以是一个3:2降采样器（例如从48KHz降采样到32KHz）或是一个２：１升采样器（例如从16KHz升采样到32KHz）。鉴于SBR编码器工作在从IIR重采样器传来的编码采样率上，而AAC核心编码器工作在它的一半采样率上，AAC核心编码器的输入前端需要一个２：１IIR降采样器。

(3)SBR编码器由一个分析正交镜像滤波器(Quadrature Mirror Filter，QMF)组构成，该滤波器组用来得到原始输入信号的频谱包络。SBR相关模块控制选择输入信号在时间角度上对QMF采样进行的自适应网格区分，分析在高频带中噪声层和音调成分的关系，收集在解码器端用于变换处理的指导信息，侦测不能通过纯变换重建的丢失掉的谐音成分。这种关于输入信号特征的采集信息，加上频谱包络数据就形成了SBR流。

(4)在立体声比特率低于36Kbps时，使用PS编码工具；在立体声比特率等于或高于36Kbps时，使用正常的立体声编码工具。PS编码工具估计输入信号中可感知立体声影像的恃征化参数。送些立体声参数是嵌入在SBR流中的。同时，在QMF域生成输入信号的一个自适应单声道降混音信号，它被送给SBR编码器进行单声道处理。这个降混音信号也通过一个降采样的QMF合成滤波器组处理，来获得AAC核也编码器的时域输入信号。EACC+编码原理图如下:

4.EAAC+解码流程

(1)经过编码的音频流经过比特流解复用器分成ACC流和SBR流。对于SBR流的处理，使用了一个低能量工具来处理全立体声解码，其目的是保持计算复杂度的峰值在所有声道模式中尽可能低。

(2)低频带的ACC时域信号首先被送给一个32通道的QMF分析滤波器组。经过滤波器组后的QMF低频带采样用来生成高频带信号，同时使用传送来的变换引导信息来最佳匹配原始输入信号特征。

(3)变换的高频带信号根据传送来的频谱包络来调整到最佳匹配原始的频谱包络。丢失的不能够重建的谐波成分也经由变换处理引入。

(4)最终，低频带和重建的高频带在QMF域组合获得完整的输出信号。在使用参数立体声流的情况下，从基础ACC+解码器输出的单声道信号转换成立体声信号。这种处理是在QMF域内实现的，受嵌入在SBR流内的参数立体声参数控制。最后使用一个64通道的QMF合成滤波器组来获得时域输出信号。EACC+解码框架如下图所示:

5.AMR-WB+简介

AMR-WB+是对AMR-WB宽带语音编码标准的扩展，它是一种变速率语音编码技术，可自适应９种不同的编码速率。音频信号的编码算法是基于其混合ACELP/TCX模式。代数码激励线性预测（Algebraic Code Excited Linear Predicition，ACELP）用于语音信号的编码。变换编码激励(Transform Coded Excitation，TCX)用于音乐信号进行编码。在编码的基础上，该音频信号的内容自适应地选择ACELP编码或TCX编码可提供在低比特率更好的声音质量，声音质量不会受到带宽限制的影响，并具有良好的抗丢侦的鲁棒性。

输入到编码器的信号在预处理部分，按照内部采样率进行重采样和高低频分解。这里把内部采样率记为；Fs，其取值范围为12800Hz－38400Hz。经过重采样后，编码器以2048个样点作为一个处理单元，这2048个样点Ｗ频率值Fs／４为界限分为两个超帧，即低频(LF)超侦和高频(HF)超侦，再分别经２倍降采样将每个超帧的样点数变为1024。每一个超帧又可分为四个256样点的帧，编码器以帧作为编码的基本单位。图中阴影和虚线部分表示对单声道信号的处理，立体声是不同于左右声道，是由单声道低频，高频和边信号低频构成，AMR-WB+的编码器框图如下所示:

AMR-WB+对低频和高频信号分别采用了不同的编码方式，低频信号使用核心的ACELP/TCX混合编码，高频信号使用BWE(Band Width Extension，带宽扩展)。当低频编码方式为ACELP方式时，编码器就是按照AMR-WB方法进行编码。针对高频的BWE方法，则对每个256点的侦只做16bits/frame的编码。

当输入为双声道立体声信号时，编码器通过滤波器将左右声道信号分为高低两个频带。两个高频信号利用BWE方法编码，两个低频信号转化为一个单声道信号和一个边信号（差信号）进行编码。

3GPP组织分别对AMR-WB+与EAAC+做了历时１年多的音频编码比较测试。从公布的测试结果可以证明：在高码率下（32-48Kbps）EAAC+对音乐信号编码质量较好，而低码率下（<=24Kbps）AMR-WB+对语音、音乐及混合音频都具有较好的编码质量。因此，AMR-WB+被3GPP和DVB(Digital Video Broadcasting)选为低码率移动音频编码的领先推荐技术。

6.G7291标准简介

G729.1是一种嵌入式语音编码标准，是基于G729标准的带宽扩展标准，可支持50Hz-7KHz的8-32kb/s的嵌入式变速率语音编码器。G729.1标准算法具有如下特性：

(1)编码速率、语音带宽及算法复杂度具有可伸缩性。

(2)同时支持8KHz及16KHz两种输入／输出信号采样频率。

(3)后向兼容G729及G729B编码格式。

(4)在特定编码速率上提供降低延迟的选项。

G729.1标准算法是在高速太网上VOIP应用大规模开展的背景下开发出来的嵌入式变速率语音编码算法，可以在各种VOIP通信设备中广泛应用，从而使用户可以获得质量更高的宽带通话质量。

G729.1编码器包含12个嵌入式层：第1层为核心层，编码速率为化bit/s，核心层与原有G729中的码流形式相同；第２层为窄带增强层，编码速率为12kbit/s；第3-12层为宽带增强层，编码速率均是在之前层的基础上増加2kbit/s。G729.1编码器主要通过３项技术来实现码流的嵌入，分别是：嵌入式的码激励线性预测(CELP)编码技术，时域频带扩展(TDBWE)技术和时域混叠抵消(TDAC)的预测变换编码技术。

嵌入式的CELP编码技术用于生成前两层的码流，其在解码端可恢复出带宽为50Hz-4KHz的窄带合成语音；TDBWE技术用于生成第３层码流，其在解码端可得到带宽为50Hz-7KHz、码率为12kbit/s的合成语音；TDAC技术用于产生第4-12层码流，其在解码端合成语音码率在14-32kbit/s之间。

G729.1编码器以20ms为一顿作为单位对输入语音信号进行处理。由于核心层采用G729协议，实际上的嵌入式编码操作是以10ms为一帧进行的。2个10ms的CELP帧构成一个20ms的帧，因此G729.1中的20ms顿被称为超帧，相应的10ms帧同样也是帧，5ms被称为子帧。G729.1的编码原理如下图所示:

G729.1这种嵌入式语音编码标准的最大特点是具有可分级性，能够提供码率范围在14-32kbit/s的窄带到宽带的音频质量。G729.1标准可广泛应用于语音分级网络传输应用，例如VoIP、IP电话等，也可用于高质量的音视频会议。

7.AVS-P10标准简介

AVS-P10标准是我国具有自主知识产权的移动音频编码标准，是由工业和信息化部工作组批准设立的AVS（Audio Video Coding Standard，音视频编解码标准）工作组负责制定的音频系列标准么一。AVS标准主要是针对中国音视频产业的需求，积聚科研机构、高等院校和企业的技术优势，制定国内领域的音频和视频标准，AVS标准在音频编解码技术标准包括两个部分：＂信息技术先进音视频编码一第３部分：音频＂（AVS-P3）和＂信息技术先进音视频编码一第１０部分：移动语音和音频＂（AVS-P10）。AVS音频工作组在2009年完成了最后的AVS-P10标准的制订工作，通过性能测试表明其性能指标部分优于AMR-WB+标准水平。

8.AVS-P10标准编解码技术

8.1编解码框架

AVS-P10音频标准是高保真移动音频编解码技术标准，支持包括移动通信，宽带无线多媒体通信，互联网流媒体等业务。AVS-P10标准支持8KHz-44.1KHz的采样频率、16位的单声道、双声道的PCM信号，解码输出是单声道或相同的立体声信号，单声道模式输出位流为10.4-24kb/s，立体声模式输出位流10.4-24kb/s的速率。AVS-P10移动语音编码包括ACELP编码模块和TVC（Transform Vector Coding，变换矢量编码）编码模块，送种混合编码模型可以基于信号的类型选择编码模式，ACELP模块编码语音信号，TVC模块编码音乐信号。阴影部分表示单声道的处理，编码框图如下所示:

解码器将解码的低频和高频，分别跟一个合成滤波两个信号带组合在一起，并根据信号输出是单声逆还是立体声分别进行解码处理。阴影部分表示单声道处理，AVS-P10解码器的框架如下所示:

8.2主要编码模块与关键技术

编码器核也算法是一种混合的ACELP/TVC模式编码。对输入音频信号的每一帧，编码器可开环或闭环模式选择编码使用的模式。进入ACELP/TVC编码模块是单声道，为2KHz采样信号。对每1024个连续的输入信号采样用于加工超帧。1024点为每个超帧使用多种模式，包括ACELP256，TVC256，TVC512和TVC1024，每个超帧具有26个不同的ACELP／TVC编码模式组合的编码。

闭环模式是选择最优编码模式可有26种编码模式，计算每种模式的平均分段信噪比，最大平均段信噪比对应的模式就是被选择的编码模式。开环模式是通过提取该音频信号的特征和选定的基于这些特征来确定编码模式。这种方法不编码各种模式，尽量减少计算复杂性，但编码模式的选择并不一定是最佳模式。

低频部分(0-Fs/4kHz)ACELP/TVC编码模块有ACELP256、TVC256、TVC512、TVC1024四种编码模式，每2%个样点都分配２个模式位标示该帧采用的编码模式。其中ACELP256编码模式下的比特分配方式如表示，TVC256编码模式下的比特分配方式如下图示，TVC512编码模式下的比特分配方式如下所示，TVC1024编码模式下的比恃分配方式如下所示。

Ａ化ＬＰ２５６编码模式下的比特分配ACELP256编码模式下的比特分配

TVC256编码模式下的比特分配

TVC512编码模式下的比特分配方式

TVC1024编码模式下的比恃分配

8.3 ACELP编码器

ACELP编码模式使用多速率编码激励线性预测编码技术，ACELP核心编码器输入到单声道信号，由高通滤波器进行预处理，预加重滤波器减少一阶传递函数动态范围的信号的频谱，并进一步提高了线性预测编码(Linear Predictive Coding，LPC)的分析分辨率。

线性预测(Linear Prediction ，LP)分析模块是用16阶LP作短时分析，用384点非对称窗加权预处理后的内部采样信号，求256个样点的自相关系数，采用莱文逊－杜宾算法进行LP系数求解，每帧分析一次得到一组LP系数。LP系数在编码前要先转化为导抗谱频率参数，然后采用预测分裂矢量量化器进行量化。感知加权模块对信号进行感知加权滤波处理。感知加权滤波处理的过程是通过判断信号的高低频能量差异，选择对应的谱平坦滤波器产生谱平坦信号。AVS-P10巧准的谱平坦滤波器包括提升宽带语音信号低频部分的低通滤波器和提升宽带语音信号高频部分的高通滤波器。

ACELP编码器的激励部分由自适应码本和固定码本构成，基音分析基于感知加权后的信号，感知加权域信号在进行基音周期捜索之前，先用４阶有限冲激响应滤波器进行滤波，然后进行降采样处理。

ACELP的长时预测模块采用了基于频段波形相关的自适应宽带信号基音搜索方法，利用宽带语音信号长时相关谐波结构在高频段并不显著的特点，通过计算宽带信号频段间的相关度判决对长时预测的激励信号进行选择性低通滤波，与AMR-WB+的长时预测模块的算法比较，运算复杂度降低了一半。

8.4 TVC编码器

TVC编码模式是一种基于时域线性预测分析技术和频域变换编码技术的混合编码技术，将输入的信号通过一个时变感知加权滤波器获得感知加权信号，对感知化权信号自适应加窗后通过快速傅里叶变换将信号变换到频域，对频域信号采用基于分裂表的标量、矢量的混合量化输出。

经过FFT变换后，通过频谱预整形技术对频谱进行平坦化处理，将连续的４复系数频谱组成１个８维实数矢量，对其采用基于RE8格的多速率分裂表矢量量化器进行量化。该量化算法的基本思想是对于各个待编码数据，首先判断其是否在基础码本中，若在则直接利用基础码本编码；否则，尝试将其分裂为基础码本中的码字和分裂表中一个分裂量的和，对基础码字和分裂量分别编码。这样就解决了大值码字无法在基础码本中找到因而不能编码的问题。解码算法是编码算法的逆过程，解码读取编码端传过来的所有参数。

8.5 带宽扩展模块

在AVS-P10中，利用带宽扩展方法对高频信号进行编码，采用模拟语音或音频信号中高频信号分量的频谱包络，Ｗ及在频域空间将所述的频谱包络与高频信号分量对应的低频信号分量进行合成，得到重建的高频信号分量。通过提取高频信号分量的频谱包络，将该精细结构作用到频域空间对应的低频信号分量上，能够保证重建的高频信号频谱与编码过程中截去的高频信号频谱的调和相关。高频基础信号采用如下的方式生成：每20ms—侦高频信号经过LPC分析，得到9阶LPC系数，进而得到高频信号的合成滤波器。在每一个20ms帧内，提取288点的高频合成滤波器的冲击响应，并归一化。归一化后的冲激响应乘以288点的余弦窗函数，并通过288点的FFT转换到频域。在每80ms的一个超顿内，低频激励信号通过288点的余弦窗函数分割成４个288点的侦，每一顿的激励信号通过288点的FFT变换转换到频域。频域的低频激励信号乘Ｗ频域高激励滤波器冲激响应，得到新的高频激励信号。其实现编解码框图如下所示:

帯宽扩展编码器帯宽扩展编码器

带宽扩展解码器带宽扩展解码器

注意:本章可能涉及到很多通信的专业术语，如果没有了解过或者不是该通信专业相关，可能看不太懂，不过也没关系，可以跳过这些描述。

8.6 立体声编码模块

AVS-P10的移动语音和立体声音频编码标准。AVS-P10在频域中使用可配置的参数立体声编码方案，其特点是：

(1)提供一个一致的框架，Ｗ解决现有编解码主流编码器的编解码器留下时间滤波结构过于复杂的问题。

(2)为使用精确的编码低频率带宽的情况下，根据编码比特率灵活控制，从而有效地提高了编码器的高频部分的质量。

(3)増益控制的高频部分在频域中执行进行提高増益控制的频率分辨率。

立体声频域参数编码框架如下所示，输入为平稳信号时立体声的编码比特分配如下所示，输入为瞬变信号时立体声的编码比持分配如下所示。

立体声频域参数编码框架

输入为平稳信号时立体声的编码比特分配

瞬变信号时立体声的编码比持分配

9.AVS-P10优点

通过以上对国内外目前常用的主流移动音频标准的技术特点分析，可Ｗ总结AVS-P10标准相对其它移动音频编码标准的技术特色与优势如下:

(1)高效压缩特性适合移动或无线通信环境下有限的带宽资源。AVS-P10移动音频编码器采用ACELP/TVC混合编码框架，充分利用人耳听觉的掩蔽特性与心理声学特性，采用各种数字信号处理技术和压缩技术充分去除音频信号的冗余，在16-24kb/s编码码率下能达到较好的音质，极大限度地节省通信系统的带宽，能在低带宽的环境下灵活高效的传输大量的音频数据，不会造成网络拥塞。

(2)灵活的编码结构能够自适应异构的传输网络。AVS-P10移动音频编码标准采用可变速率编码结构，其编码码率在8-48kb/s范围内连续可调，并且对应不同的容错率，允许在每倾的边界处进行不同的速率切换。AVS-P10移动音频编码还可根据当前网络的实际业务量大小和通信信道的好坏调整源编码速率和容错率，选择最佳编码模式和最佳信道模式，使编码质量和系统容量达到最佳组合，能够使音频数据自适应地在复杂多变的移动或无线网络环境下传输。

(3)低复杂度编码模式适合资源有限的移动终端。AVS-P10的低复杂度编码模式专口针对部分移动终端的数据处理能为较弱的特点，通过声音分类器进行模式判决并采用开环搜索模式替代闭环捜索模式，编码运算的复杂度大大降低，从官方提供的主客观评测的结果来看，AVS-P10标准编码器和AMR-WB+标准编码器的总体性能相当，而计算复杂度下降18％左右，存储需求下降３０％左右，这样在应用中能有效地降低能耗，节省移动终端的资源损耗。

(4)强大的错误保护化制。网络传输所造成的延迟、抖动或丢包等问题，是影响移动音频业务发展的至关重要的因素之一。AVS-P10移动音频编码标准提供了非常强大的错误保护机制，相比AMR-WB+标准优化的鲁棒性和丢顿隐藏技术可降低压缩码流对差错的敏感性。同时AVS-P10移动音频还可支持对误码保护信息进行非均匀分配，对重要的内容进行重点错误保护，从而在网络状况极差的情况下，最大限度地降低重要内容的出错概率，使移动音频业务能以较低的出错概率实时或低延时地进行传输。

为了支持新的物联网环境下更多不同类型语音和音频应用需求，特别是对无损高质量的立体声或多声道音频的支持，短时传输的音频数据量激增，可能涉及到大数据的量级，出现很多新的技术问题。为了应对送些新的技术挑战，国内AVS工作组也再加紧研究AVS的第二代多媒体系列标准AVS2（音频部分），国际上也发布了EVS移动音频増强的辅助支持标准，后续还有一些标准将会制订和发布。该些标准的发布将推动移动音频技术向更智能、更高效、更节能、鲁棒性更强的应用方向发展。

10.总结