【音频压缩】为什么要对视频和音频信号进行压缩？举例加以说明

薛董_艾瑞 2018-01-08

展开全文

数字技术的出现与应用为人类带来了深远的影响，人们如今已生活在一个几乎数字化的世界之中，而数字音频技术则称得上是应用最为广泛的数字技术之一，CD、 VCD等早已走进千家万户，数字化广播正在全球范围内逐步得到开展，正是这些与广大消费者密切相关的产品及应用成为了本文将要介绍的主题：数字音频压缩技术得以产生和发展的动力。 



1、音频压缩技术的出现及早期应用 



音频压缩技术指的是对原始数字音频信号流（PCM编码）运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。 



数字信号的优势是显而易见的，而它也有自身相应的缺点，即存储容量需求的增加及传输时信道容量要求的增加。以CD为例，其采样率为44.1KHz，量化精度为16比特，则1分钟的立体声音频信号需占约10M字节的存储容量，也就是说，一张CD唱盘的容量只有1小时左右。当然，在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢？研究发现，直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上，在无损的条件下对声音至少可进行4：1压缩，即只用25％的数字量保留所有的信息，而在视频领域压缩比甚至可以达到几百倍。因而，为利用有限的资源，压缩技术从一出现便受到广泛的重视。 



对音频压缩技术的研究和应用由来已久，如A律、u律编码就是简单的准瞬时压扩技术，并在ISDN话音传输中得到应用。对语音信号的研究发展较早，也较为成熟，并已得到广泛应用，如自适应差分PCM（ADPCM）、线性预测编码（LPC）等技术。在广播领域，NICAM（Near Instantaneous Companded Audio Multiplex - 准瞬时压扩音频复用）等系统中都使用了音频压缩技术。 



2、音频压缩算法的主要分类及典型代表 



一般来讲，可以将音频压缩技术分为无损（lossless）压缩及有损（lossy）压缩两大类，而按照压缩方案的不同，又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度（包括时间复杂度和空间复杂度）、音频质量、算法效率（即压缩比例），以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。 



（1）时域压缩（或称为波形编码）技术是指直接针对音频PCM码流的样值进行处理，通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低，声音质量一般，压缩比小（CD音质> 400kbps），编解码延时最短（相对其它技术）。此类压缩技术一般多用于语音压缩，低码率应用（源信号带宽小）的场合。时域压缩技术主要包括 G.711、ADPCM、LPC、CELP，以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM（SB-ADPCM）技术如G.721、 G.722、Apt-X等。 



（2）子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和，然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型（心理声学模型），通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的