音频处理基础（二）

人生好比斗地主 2022-04-13

展开全文

一、音频信号的数字化

声波在时间和幅度上都是连续的，是一种模拟信号。要到计算机里面能够处理它，就必须要把它转换成二进制的“0”和“1”，这个过程叫数字化过程。数字化过程，就是采样、量化和编码的过程。

(1)采样：声音信号在时间上的离散化。即每隔一定时间抽取一个信号样本。采极频率，就是每秒采样的次数。

奈奎斯特理论：采样频率不低于声音信号最高频率的两倍，这样就能把数字声音还原成原来的声音，称为无损数字化。

语音的最高频率约为3KHz,放大一点，到3.4KHz,。如果放大两倍就是6.8KHz,再放大一点，就是电话采样的频率,定在8KHz。人的耳朵能够感知到的音频的最高频率为20kHz, CD音质的采样频率为44.1kHz;

（2）量化：声音信号在幅度上的离散化。采样过程中对每一个采样点的幅度值用数字量来表示。

采样精度：即量化的位数，8位可以将幅度分成256等份，位数越多量化等级数也越多，所能表示的声波幅度的动态范围也越大，当然需要的存储空间也越大。如果幅度的划分是等间隔的，则称为线性量化，否则为非线性量化。上图比被分成八个刻度，是等分的线性量化。而在实际的一些算法中都是采用非线性量化。这是因为我们声音的幅度，绝大部分的波形，它的幅度都不是很高，但是突然会有一个声音可能很响，这个波形它的幅度就会比较大。如果我们采用这样的等分间隔，就不能把这个绝大多数的较低的这些波形更好的把它们表示出来。相反波形比较高的这一部分它很少，它就浪费了这个量化的位数。不能更好的把这个波形更精确的表示出来。所在在实际当中，可以采取这样一种方式，就是幅度低的这一部分，把它的量化的位数增加，也就是把它的间隔缩得更短，而对于这个幅度比较高的波形，我们把它的量化的位数减少，把它的间隔拉大一些。这样就能充分的利用量化的位数。把这个波形更精确的表示出来。

（3）编码。

脉冲编码调制法(PCM) :: 用二进制来表示每一个有固定电平的量化值。写成二进制的过程就可以理解为编码的过程。

如何计算数字化音频的数据量? 数据量=采样频率*采样精度*采样时间*声道数/8 就得到字节数。

例2.1计算1分钟未压缩的高保真立体声数字声音数据的大小。

60*( 44100*16*2)/8=10.09 MB 一分钟等于60秒，高保真立体声就说明它是CD音质，采样频率是44100Hz,它的量化的位数要达到16位,它是立体声有两个声道，那就要乘以2,再除以8,才能获得字节数。那这样算出来的话，一分钟要10.09MB，所以一首歌曲，录制的时间大约在四分钟左右的，不压综就需要40MB左右。一个容量为4GB的MP3播放器可存放100首这样的歌曲。而我们现在听的歌曲，一首歌它的长度大约是在4MB左右，所以它的压综就能达到10倍左右。

二、数字音频压缩标准

（1）电话质量的语音压缩标准。G.711, G. 721,G.723，G. 729等，采样频率: 8kHz，量化位数: 8位

(2)调幅广播语音压缩标准：G.722:第一个宽带语音编码算法，采样频率: 16kHz

(3)宽带音频压缩标准：MPEG-1的音频，第一个高保真立体声音频压缩国际标准，提供三个独立的压缩层次，mp3则采用了其中第三层的标准。

三、常见的音频文件

WAV文件：波形文件,文件大，适合存储简短的声音片段和旁白。

MP3文件：是MPEG音频第3层的简称，有损压缩，压缩比达12:1.

RA文件: Real Media音频部分，采用流式传输，适合在线聆听。

WMA文件：微软推出的流式音频格式。

AC3文件:又叫杜比数码环绕立体声，提供5个全频域声道和1个超低音声道，称为5. 1声道，一般作为DVD的伴音。

AIFF (音频交换文件格式): Apple公司开发，被Macintosh平台及其应用程序所支持。

FLAC文件:无损压缩，源码开放，支持所有操作系统平台。