音频采样率和码率简介

happyomer 2020-10-31

展开全文

说出的声音

我们习惯了声音，但是并不知道声音是什么，的确是这样的，我以前学过也忘记了。

声音其实就是声波吧，本质是一种波。声音是一种具有固定频段的波。

人的说话频率基本上为300Hz-3400Hz，但是人耳朵听觉频率基本上为20Hz-20000Hz。

传感器

人说出的这种具有固定频段的波，经过特定传感器的采集，可以将现实世界中的波转换成模拟电信号，然后经过采样、量化、编码的处理可以将模拟电信号转换成数字电信号。

传感器可以感受波的波动，将这种波动转变成电信号的波动，看到我们眼中的就是波形了。

然后我们就可以用电子设备来录制和播放声音了，其实就是下面的过程：

现实声波---（传感器）---->电信号---（电子设备）---->录制和播放现实声波

音频采样率和码率简介

1、背景知识

人的说话频率基本上为300Hz-3400Hz，但是人耳朵听觉频率基本上为20Hz-20000Hz。

2、采样率

实际中，人发出的声音信号为模拟信号，想要在实际中处理必须为数字信号，即采用采样、量化、编码的处理方案。处理的第一步为采样，即模数转换。简单地说就是通过波形采样的方法记录1秒钟长度的声音，需要多少个数据。根据奈魁斯特（NYQUIST）采样定理，用两倍于一个正弦波的频繁率进行采样就能完全真实地还原该波形。所以，对于声音信号而言，要想对离散信号进行还原，必须将抽样频率定为40KHz以上。实际中，一般定为44.1KHz。44.1KHz采样率的声音就是要花费44100个数据来描述1秒钟的声音波形。原则上采样率越高，声音的质量越好，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。22.05KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则已达到DVD音质了。

3、码率

对于音频信号而言，必须进行编码。在这里，编码指信源编码，即数据压缩。如果，未经过数据压缩，直接量化进行传输则被称为PCM（脉冲编码调制）。要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2=1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。降低采样指标是不可取的，因此专家们研发了各种压缩方案。最原始的有DPCM、ADPCM，其中最出名的为MP3。所以，采用了数据压缩以后的码率远小于原始码。

4、小结

对于人类的语音信号而言，实际处理一般经过以下步骤：

人嘴说话——>声电转换——>采样（模数转换）——>量化（将数字信号用适当的数值表示）——>编码（数据压缩）——>

传输（网络或者其他方式）

——>解码（数据还原）——>反采样（数模转换）——>电声转换——>人耳听声。