分享

小白不踩坑,一文看懂数字音频的这些术语!

 wxsjbcf 2022-03-27

Hi-Res、采样率、比特率、比特深度(位深度)……大家在选购耳机、音箱时,总能看到类似的术语,也往往被其中的商家话术所迷惑踩坑。今天,小狮子就让大家看懂数字音频术语,避免无谓忽悠!

图片

小狮子省流量提示:

采样率是指每单位时间内记录的音频样本数量,比特深度衡量样本的精确编码程度。最后,比特率是每单位时间内记录的比特数量。

什么是Hi-Res?



在数字音频行业,引发争论的话题层出不穷。像各种玄学的线材,高保真和高解析度(Hi-Resolution)音频这样有争议的话题,是一些特别能激起论战话题。高解析度音频(Hi-Res Audio)的定义是,任何以高于44.1kHz/16bit的采样率和比特深度录制的音乐文件都被视为高解析度(HD)音频。

图片

Hi-Res Audio发起者SONY对Hi-Res和CD音质的对比

Hi-Res目前已经取代了传统的HiFi(高保真)概念,成为数字音频质量的衡量标准,原因有两个,第一是它是量化的标准,不像HiFi,HiFi虽然为发烧友熟知,但实际上一直没有一个量化的标准,大家比较多是对标CD音质,但同时涉及到一些玄学设备,比如胆机和黑胶唱机,又说它们也算HiFi,就失去了科学性而只强调声音的特质了;第二是它的采样率和比特深度等标准,确实已经超过了数字CD音频,给了更多耳机音箱功放以发挥空间。

那么,这就涉及到几个新概念:比特率、采样率、比特深度。而要了解这几个概念,就需要——

声音是如何以数字方式记录的?



声音其实是一种振动波。当声音产生时,它会产生一个压力波,在空气中传播。如果录音设备的膜片,比如麦克风,就在附近,空气中的压力波就会在膜片上产生振动,振动通过神奇的转换器,反过来又产生了一个电信号。这信号随着空气中的振动波浪不断变化。

这种连续和成比例的变化形式,就是传统音频记录 '模拟 '一词的来源。

由振膜产生的信号本身往往不够强。通常情况下,一个前置放大器首先会提升信号,使其能够以多种方式被记录,在模拟时代,它可以是晶体管、电子管(胆机的“胆”)等元件。由于元件对信号的放大有误差,就产生了各种独特的”音色“,但并不算“逼真”。

图片

真正的原始音频声波频谱图

纵观历史,各种介质都被用来记录和存储模拟信号。这包括蜡、黑胶盘和磁带。最终,数字记录被引入并变得普遍。

数字音频通过1和0来记录采样的模拟信号(连续可变的值)。

通过抓取足够多的传入模拟信号的样本(采样),并将其保存到存储介质中,数字音频文件能够捕获并在以后重现上述信号。

一个典型的数字音频记录每秒有多达44100个振动信号样本(44.1KHz,一次振动称为1Hz)。然而,在一些数字音频格式中,每秒96000个样本(96KHz)是很正常的。

数字音频采样方法也很多,但脉冲编码调制(PCM)是事实上的标准。

图片

在一些播放器中大家常见的PCM说的就是脉冲编码调制

什么是PCM?



脉冲编码调制PCM是以数字格式存储模拟波的工业标准。在PCM流中,音频的振幅以统一的时间间隔进行采样。PCM是非公开标准,任何人都可以免费使用它来进行数字音频的采样和回放。而专利音频格式大家熟悉的则有DTS、Atmos、杜比数字等。

然而,由于两个原因,导致PCM格式的音频文件资源很难找到:一是文件大小,二是播放兼容性。

文件大小

由于PCM是未压缩的,所以录制的音频文件是巨大的。一般人们使用有损甚至无损的压缩算法来压缩音频文件,以尽量保留音频的保真度同时减少文件大小。

杜比(Dolby)和DTS、MP3(实际上是借鉴自视频的MPEG压缩算法)是有损的音频压缩算法,经常被用于这一目的,因为它们能够将PCM音频文件的大小减少90%以上。

不过,这些数字音频压缩格式,将PCM通道编码成数字流进行存储,然后再解码回放的方式并不完美。由此产生的音频,虽然文件大小较小,但准确性和质量是有所下降的。

这就是杜比数字TrueHD和DTS-HD Master Audio、FLAC等无损格式的用处。它们能够完全按照最初捕获的PCM音频信号进行解码。

播放兼容性

大部分操作系统,无论是PC还是手机,并不支持PCM文件的原生播放。IBM和微软为Windows操作系统定义了波形音频格式(WAV),而苹果为MAC OS使用了音频交换文件格式(AIFF)。这两种格式都只是对PCM音频格式的一种封装,带有额外的音频信息,如作者简介和曲目的标题等

保真度的表示

数字音频PCM流的保真度/质量由两个属性表示。一个是采样率,一个是比特深度,这两个属性表示数字录音对原始模拟信号的精确采集和还原程度

什么是采样率?



我们可以用大家更熟悉的视频的帧率的道理来给大家解释下采样率:视频只是静止图像的幻灯片,一个接一个地播放,以创造运动的幻觉(视觉暂停原理)。画面变换的速度(帧率,FPS)决定了所产生的动画的流畅程度。过渡速度越快,动画的错觉,也就是视觉效果就越好,这也是为什么帧率高的视频为何看起来比较舒服和清晰的原因。

在数字音频记录中,采样率类似于视频中的帧率。每段时间收集的声音数据(样本)越多,捕获的数据就越接近于原始模拟信号表达的声音。

图片

低采样率(左)和高采样率(右)形成的信号频谱和原始声波信号比较,高采样率的每个采集点连接起来,就更趋近于真实声波信号波形线

在一个典型的数字音频CD录音中,采样率是44.1kHz。为什么采样频率这么高?人耳最多只能听到20kHz的频率呀(而且Christopher D'Ambrose认为正常中年人的听觉能力为12-14kHz)!这是因为奈奎斯特-香农采样定理。

简单来说,就是这个定理发现:在对信号进行数字采样时,为了防止任何信息的损失,你必须以至少两倍于最高预期信号频率的速率进行采样。

所以使用44.1kHz的采样率可以准确再现22kHz左右的频率,接近并略超过人的听觉极限。目前最高的采样率有384KHz,主要用于录制产生超声波的动物比如蝙蝠的叫声时。

什么是比特深度(位深度)?



电脑以1和0存储信息。这些二进制值被称为比特(位)。比特的数量越多,表明信息存储的空间越大。

图片

当一个信号被采样时,它需要用比特形式来存储采样的音频信息。这就是比特深度的作用。比特深度决定了可以存储多少信息。24位深度的采样可以存储更多的细微差别,因此,比16位深度的采样更精确。

如上图,“9”的二进制比特表示是1001,占用4个格子(bit深度);而5呢?是101,只占用3个格子(存储空间),假定它们代表的是音频信号值,那么显然1001比101表示的音频信号精度和信息量更大。

让我们看看数字音频里典型的比特深度可以存储的最大数值是多少:

16位。能够存储多达65536级的信息

24位。能够存储多达16,777,216级的信息

你可以看到这两个比特深度之间可能的数值数量的巨大差异。这也到导致了同样的采样率,比特深度(位深度)更高的数字音频文件,能够存储更丰富的音频信号点,从而达到更好音质。

动态范围

另一个影响比特深度的重要因素是信号的动态范围。16位数字音频的最大动态范围是96dB,而24位的比特深度(位深度)是144dB。分贝实际上是衡量信号能量(功率)的单位。

CD质量的音频是以16位深度记录的,因为一般来说,我们只想处理足够大的声音,让我们能够听到,但同时又不会大到损坏设备或耳膜。

采样率为44.1kHz的16比特深度足以再现普通人的可听频率和动态范围,这就是为什么它成为标准的CD格式。

为啥还有更高采样率和比特深度的数字音频?

既然44.1KHz/16bit的采样率/比特深度音频普通人已经够了,为啥在发烧和专业录音领域,黄金标准是192kHz/24bit呢?

原因很简单,给后期人员留足可以不影响采集音效本身的后期效果操作空间。

图片

数字音频采样波形里,可以理解横轴点是采样率每次采样值,而纵轴则表示位深度,显然更大的纵轴空间(位深度)留下更多可以进行特效和修音操作的空白“空间”

由于专业音频设备可能的信号范围比普通人能听到的要大得多,使用24位比特深度,可以留出更多“空白”音频流空间,用前面的图的原理,就是有很多“空白格”,让音频专业人员干净地应用成千上万的后期效果操作进行修饰,参与音频的混音和母带处理。

什么是比特率?



比特率指的是每秒钟或每分钟或任何时间单位所传达或处理的比特数计量单位。

它有点像采样率,但相反,所计量的是比特数而不是采样数

从本质上讲,在一个时间单位里,你能容纳的比特数越多,就越接近于再现原始的连续变化的声波,声音表现就越准确。

不幸的是,更高的比特率也意味着更大的文件尺寸,当存储空间和带宽是一个问题时,这是一个大忌,比如在线音乐流媒体服务。

无损音频文件大小的计算

为了让你了解比特率和音频文件大小的差异,用一首5分钟的未压缩歌曲来计算比特率和文件大小。

1) 首先,用“采样频率×比特深度×声音通道数”的公式来计算比特率。

假设:2声道立体声音数字频

44.1kHz/16bit:44100 × 16 × 2 = 1411200比特/秒 (1.4Mbps)

192kHz/24bit:192000 × 24 × 2 = 9216000比特/秒 (9.2Mbps)

2) 使用计算出的比特率,我们将其乘以歌曲的长度(秒),再用兆比特(Mb,Megabits)除以8,得到兆字节(MB,Mega Bytes)。

44.1kHz/16位:1.4Mbps × 300s÷8 = 420Mb (52.5MB)

192kHz/24bi:9.2MBps×300s÷8 = 2760Mb (345MB)

以192kHz/24bit录制的音频将比以44.1kHz/16bit采样的音频多占用6.5倍的文件空间。

XX音乐们的音质

我们可以看到,要传一首以44.1kHz/16bit录制的未压缩的5分钟歌曲,需要1.4Mbps的比特率,这是一个很大的带宽。

在线音乐服务商通过压缩音频来规避这一带宽问题。当然,文件压缩并不是没有后果的。例如,某鹅音乐标准音质是128kbps,流畅音质是低于标准音质128kbps,如96/64kbps,HQ是320kbps,无损高于320kbps。苹果音乐的用户被 '限制 '在256kbps的比特率上(尽管它的AAC格式实际支持320Kbps传输)。

蓝牙耳机为何现在无法真·无损?

所以,这也解释了,为什么TWS蓝牙耳机无法做到真正的Hi-Res:蓝牙4.2传输速率为1Mbps,蓝牙5.0为2Mbps。对蓝牙4.2设备来说,用上所有带宽能力也无法实现44.1KHz/16bit双声道立体声的1.4Mbps(1411Kbps)传输;对于蓝牙5.0来说,虽然具有理论带宽能力,但无法将所有带宽都给音频传输,毕竟还有设备控制等信号传输带宽。所以蓝牙耳机只能通过各种有损的压缩传输协议,尽量实现接近CD音质的音频传送。

图片

如上图,最新的蓝牙5.3白皮书显示,在LE 2M模式下,最大带宽能力2Mbps,最大应用程序数据传输率1400kbps,和1411kbs的44.1KHz/16bit双声道立体声比特率相比仍有差距。

总结



由此看来,任何比特率为192kbps或更高的音乐,只要在Ogg、MP3、AAC或FLAC音频文件中进行了适当的编码,就会变得与原始音频模拟无法区分。使用普通耳机的休闲听众不会从192kbps以上的音频流中受益。

今后,当有人告诉你一个音频格式文件根据其编码过程听起来有多 '清晰 '时,你应该能够批判性地思考,并把注意力转移到解码和发声单元能更好还原音频本身的硬件设备上。

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多