关于“位深度”的必会知识！新人课堂：数字音频基础系列

fjgsd 2023-03-28 发布于广东

展开全文

上周我们的数字音频系列文章介绍了关于音频采样率的相关知识，包括它的概念，标准采样率的缘由等，如果有想回顾的请看关于“采样率”的必会知识！新人课堂：数字音频基础系列

这篇文章将介绍关于“位深度”的必会知识，包括它和比特率的对比，它和动态范围等。希望能对新手有帮助，对专业人士的知识有所巩固。

什么是音频位深度？

模拟声音信号是个无限定振幅数值的连续声波。不过，为了测量数字音频里的声波，我们需要以限定的数值去定义声波的振幅以便我们采样。

音频位深度（audio bit depth）决定了我们可以为每个样本记录的可能振幅值数值。最常见的音频位深度有16位，24位，和32位。每个都是二进制的单位，代表着一定潜在的数值。更高的音频位深度系统能够表达更多潜在的数值：

16位：65，536值
24位：16，777，216值
32位：4，294，967，296值

有了更高的音频位深度，也就是更高的分辨率，那么更多振幅数值就可供我们记录了。结果就是，当采样时，连续性的模拟声波的准确振幅就更接近可供的数值。那么，振幅的数字近似值就更加接近原始的流动模拟声波。

16位：65，536振幅数值
24位：16，777，217振幅数值
32位：4，284，967，296振幅数值

增强音频位深度和采样率，就能够创造更多分数来重建模拟声波了。

当然，不管分辨率如何，流动模拟声波不一定总是对应一个数值。结果就是，出现量子化（quantization）的过程，表示振幅的最后一部分数值约等于0或者1。这就意味着有一部分的数据是随机的。

位深度和比特率对比

“位深度”和“比特率”这两个概念的英文只有一词之差，二者经常容易混淆，但其实他们截然不同。位深度（bit depth）经常理解为采样格式或者声音分辨率，它能决定音频精确度，控制音频文件里的数据，影响音频清晰度和细致程度。而比特率（Bit rate），是每秒千比特为衡量单位，它是声音回放时每秒流通的数据，能衡量音频文件里的带宽，影响音频回放质量，决定文件大小。

显然两者的功能都有自身的缺陷。比特率不能给低频音频增加细致程度，也不能了解文件里的数据有多少。位深度不能重复给文件添加细节，也不能控制播放音频所需要的带宽。

底噪，相关噪音，音频抖动等概念

在数字音频中，我们听到的随机性是一种低频的白噪音（white noise），也叫底噪（noise floor）。底噪，亦称背景噪声，一般指电声系统中除有用信号以外的总噪声：包括音响设备噪声和放音环境噪声两部分。如同现场演奏环境里的背景音里插入的电子杂音，数字量化误差会给我们的声音插入噪音。或者像电视声中除节目声音外的“沙沙”声等。过强的底噪，不仅会使人烦躁，还淹没声音中较弱的细节部分。

采样率和声音之间的谐波关系（Harmonic relationships）和位深度，能够引起量化中产生某种规律。这就产生了相关噪音（correlated noise），也可以称之为有色噪声。作为某些频率里我们能在缔造环境下听到的共振。这时的底噪其实更响，占用记录声波信号里的潜在振幅数值。

音频抗抖动

为了不让上述规律出现，我们可以进行人工随机化。利用一个叫音频抖动（dithering）的过程，我们可以随机化最后一部分数据约等于的数值。规律就不会产生，更多随机的非相关噪声就被创造用来产生潜在的振幅数值。音频抖动其实是一种低频形式的噪音，在渲染更低位深时，被刻意添加到数字音频文件中。抖动的概念可能听似“反直觉”，但却是一个很有效的处理方式。抖动噪音实际上掩盖了所谓的“量化失真”，后者会导致数字音频出现噪声和不自然感。

底噪的振幅就成为我们潜在动态范围的最底层。声谱的另一侧，如果振幅太高，信号超出二进制系统能创造的最大值，那么就让一个数字系统歪曲。这个级别就被称之为0 dBFS。

总结来说，音频位深度定义的是底噪和0 dBFS之间的潜在振幅数值。

位深度和动态范围

降低背景音量的关键因素要考虑正确的位深。每一次录音有较低的底噪与较高的位深搭配。这种现象发生是因为动态范围，也就是噪音和静音之间的区别，它是比底噪更高，这就让噪音降低到最低。