分享

数码音频用的“时钟”写一点科普

 wangda360 2020-04-25

近年来,外置独立高性能时钟加持的玩法在高烧友的群体中越来越流行,但也有很多烧友因为缺乏相关背景知识对这种玩法望而生畏。这里简单做一下科普。

数字电路的正常运作离不开时钟信号,时钟信号可以比喻为像“心跳”一样为数字电路的各个部分的同步协调工作提供正确的时序参考。有一种我在国外杂志上看到的说法是很准确的——数码音频的核心就是Timing。时钟就是提供这种Timing准确性的。外置时钟的加持本质上是用一个质量更高的外部时钟信号来替换设备内置的音频主时钟信号(简称MCLK:Master Clock),从而达到提升听感的效果。

MLCK是现代超采样DAC内部的升频及数字滤波器正常运作所需要的时钟信号,越是高质量的MCLK,DAC内部电路的同步工作就会越准确,反映到主观感受上就是听感的提升。MCLK的频率通常为基础采样频率44.1/48KHz的256/512/1024/2048倍,一般写为256fs/512fs/1024fs/2048fs(fs=“采样频率”的缩写)。在数字音频里最常见的是22/24MHz(即512fs),有些数码器材有这个接口,支持外部MCLK信号输入。

再写得基本一些,为什么对于数码音频来说Timing如此重要?因为数码音频的基本原理就是按一个固定的频率去对模拟波形“采样”(Sampling或者叫“取样”)。44.1KHz就是每秒钟采样44100次,重播的时候则把这些零散的采样信号同样按照44.1Khz的频率“复原”出模拟波形。在这个过程中,每秒钟44100Hz这个“采样频率”的准确性直接地影响信号质量,并直接地反映到听感。

为什么基础采样频率是44.1KHz呢?这是为了覆盖人耳的可闻音域,即20-20000赫兹。每秒钟44100赫兹的采样频率可以确保20000赫兹的高频信号(人耳可闻的高频上限)也能记录和重构(每个频率周期需要至少两个采样点)。

在常见的DAC设计中,MCLK主时钟信号源自机内的内部时钟(通常是晶振)或由音频锁相环(PLL)合成。商品化的解码器内置的MCLK时钟源必须考虑成本,往往是妥协的方案,不可能追求极致。

MCLK音频主时钟信号的质量会直接影响音质。其最主要的技术性能是短期稳定性(简称短稳)。它能直接关系到音质,主观听感上可以关联到——声音的安定感、透明度、声场表现、结像力、凝聚性、颗粒感、活生感,等等。

高性能MCLK时钟信号源的具体实现,一般是两种思路,一种是采用高性能的音频频点OCXO(恒温晶振)直接得到MCLK;另一种是采用高性能的10MHz参考时钟源,如高性能的10MHz OCXO或高性能10MHz原子钟配合内置的高性能MCLK频率合成器,得到高性能MCLK。

可以直接加持高性能MCLK时钟源的音频设备是较少的,只有部分Hi-End品牌的转盘和DAC支持直接加持MCLK。在实际的玩法中,直接加持MCLK音频主时钟信号源只是玩法之一,另外还有两种常见的玩法:1)加持10MHz参考时钟源,2)加持WCK字时钟信号源。

数码音频用的“时钟”写一点科普

HORAE时钟连接Esoteric K01X

有一个问题是:为什么会采用10MHz这个频率的参考时钟源来加持音频设备,毕竟这个频率跟数字音频常用的频点(44.1/48及其倍数)一点关系都没有。

其实很简单,10MHz是已经在航空、航天、通信及军工领域的高性能时钟参考源普遍应用的一个频率点,相关的OCXO和原子钟模块相对更容易采购,无需像采用音频频点OCXO那样需要专门定制,而且相关的关键器件也已经在那些稳定性与关键性能要求更为严苛的专业领域中充分验证过,短稳和低频相噪性能达到Hi-End音频应用所要求的性能水平完全不成问题。

因此,加持10MHz参考时钟源是目前最方便的一种时钟加持方式,也就是选用自带10MHz参考时钟输入的数字源和DAC,统一接驳到同一个10MHz参考时钟源即可。这类音响器材内部都有10MHz参考时钟转为MCLK的频率合成器,无论实际回放的是什么采样率,无需手动切换音频时钟频率。

加持WCK字时钟也是一种常见的玩法。WCK(Word Clock)字时钟,简言之就是一个数字音频采样率频率的时钟信号,WCK字时钟有时也写作FS/LRCK,它与MCLK音频主时钟成2的整数次幂倍率,前文提到的MCLK也可表示为256FS/512FS/1024FS/2048FS(FS=44.1kHz或48KHz)。常用的WCK范围从44.1KHz - 384KHz(PCM)。如果是DSD回放,那么字时钟的频率是2.8MHz、5.6MHz、11.2MHz等频率,分别是44.1KHz的64倍、128倍、256倍。通常所说的所谓DSD64、DSD128、DSD256等,就是指它的播放频率为基础频率44.1KHz的多少倍数。

加持WCK字时钟的思路跟加持MCLK音频主时钟非常类似,只不过多了一个环节——支持WCK字时钟输入的设备在接收外部WCK字时钟信号之后,需要用机内的锁相环电路来实现从WCK字时钟到MCLK的同步及倍频过程,最终得到一个高性能的MCLK来应用于机内的数字电路。

实际使用中存在一个问题,在多数情况下采用WCK字时钟加持的音响器材在遇到采样率切换的情况需要手动或半自动切换字时钟频率,否则听到的声音会不正常(放错速度的听感)。

类似的情况也存在于加持MCLK音频主时钟源的器材,不过这种情况下只有采样率基频在44.1K和48K之间切换才需要调整MCLK频率,在同一基频的不同倍率采样率之间切换无需手动切换。

数码音频用的“时钟”写一点科普

M2Tech小时钟

下面我想专门提一下很多烧友关于时钟存在的一个认识误区——只关注时钟的频率精度,即时钟实际输出的频点跟理想频点之间有多大的偏差,一般其单位为PPM(百万分之一),有一些高精度时钟源的精度数量级能达到PPB(十亿分之一)。然而,音频时钟的频率精度跟主观听感关联性实质很小。

时钟的频率精度和其频率的长期稳定性能有很强的关联性,但是音乐信号并不是一成不变的简单有序信号,音频时钟的长期稳定性对于音乐信号的录制和回放并没有决定性的意义。一般来说,小于50PPM的频率精度就足够满足HiFi级的数字音频应用了。换言之,在音频时钟上单纯追求高频率精度,可能连事倍功半都算不上。艾诗的王工曾打过这么一个比方我一直记着:一首曲子长度是8分30秒,但把它非常非常精确地播放在这个时间并不能保证音质是最好的,而可能一部器材播放它比8分30秒多放了0.01秒但是音质却极好。长期稳定性极好的时钟,最适合的用途是天文台计时,而非Hi-Fi音频重放。

音频时钟的最关键性能是其频率的短期稳定性能(短稳),可通过测低频相位噪音在频域上表现,也可以通过测RMS jitter(均方根抖动)和短时间内的阿伦方差(有时也称短稳)在时域上表现。

相位噪音、抖动和短稳是对于时钟频率短期稳定性能的不同角度表达方式。

时钟的频率短期稳定性好不好,通俗地说就是其频谱纯净度高不高。因为假如除了音频时钟信号本身以外,还存在其他的杂散噪音成分,DAC电路输出的模拟音频信号也会有偏差,特别是产生相位失真,音乐信号的微动态细节、声场、结像力等都会劣化。

发烧友喜欢归结为“数码味”或“数码声”的东西——具体可能表现为声音的颗粒感、表情平淡、毛躁感、不耐听的“火气”、结像模糊肥大、声场散乱等——其实大多可以“归功于”这些杂散的噪音成分,及其具体的分布模式(Jitter Pattern)。

很多原子钟长期稳定性能很好(天文台一般用原子钟),但短期稳定性一般甚至不好,因此不要迷信原子钟,在用于数码音频回放时,原子钟并不等于顶级时钟,性能并不如优质的OCXO(恒温晶振)。

另外想借这篇文章指出的一点是:时钟,在理论上是不存在所谓“调音”成分的。时钟只有技术性能,没有“调音大师”。当然,音频用的时钟,和其它用途,比如通信行业、天文台所用的,还是有差别的,或者说“为音频优化”。怎么个优化呢?其实本质就是注重短稳。短稳性能越好,用于数字音频会获得越佳的性能。天文台的钟搬来也不能保证声音一定好(天文台注重长期稳定性)。当然,存在长期稳定性和短期稳定性都超强的钟,比如氢原子钟,但价格要几百万,不是现实的东西。

最后一点我又要绕回早就说过的“芯片决定论误区”了。对于解码器来说,精准高性能的Clock比解码芯片重要多了。优质、低jitter的数字源,是非常重要的,也是很“值钱”的,解码芯片之间的价格能差多少?便宜的几十块,贵的几百块,就差这些而已,而顶级的数字源设备、顶级的时钟,都是很贵的,而且贵得“合理”(对声音影响更大)。如果有优质低jitter的数字信号,有高性能的时钟加持,在这样的前提下,哪怕是非常普通的解码芯片和解码架构,都很容易获得很好的声音。而光是解码芯片好,参数指标高,前面给它差劲的数字信号、用差劲的Clock,出来的声音绝好不了。

我前几年写过一篇东西,大致是讲这么一个道理——数字源设备更多决定声音的“素质”,解码更多决定“音色”。其实数字源设备的差别体现在哪里呢?其实本质的体现就是它输出的数字信号的质量(jitter)。如果数字源设备输出的信号里面jitter很大,解码器本身再如何强大,也是无法挽回的。为什么呢?因为解码器是跟随数字源时钟的,数字源输出的信号怎么波动,解码器只能跟着怎么波动,它是一个Slave。有些人说有些解码里面有缓存啊?但是缓存都不大的,根本不可能靠它完全消除前面信号的抖动。为什么近两年烧友中很红的Titans Audio Helen那样的设备能带来系统的音质提升?因为Helen接在数字源之后,通过它顶级的PLL线路去抑制数字信号里的Jitter,这样解码器收到的数字信号就质量提高了、Jitter消减了,出来的声音自然提高。Helen起到的作用等于是一个在前期减小Jitter的“预处理”。

数码音频用的“时钟”写一点科普

Esoteric G1时钟

最后我还想澄清一个关于“飞秒时钟”的误区。所谓的飞秒时钟近年来也蛮热门的,不少厂家开始宣传在其器材内用了jitter低至几十fs(femto-second)甚至个位数fs的超低抖动晶振。

问题的实质是,这些飞秒时钟的实际抖动性能仍是良莠不齐、高下有别的。不能否认的是有部分厂家是在利用这个概念浑水摸鱼的。或者说飞秒时钟这个大概念、这个名词,被用于商业炒作。

首先要明确的是目前的所谓“飞秒时钟”并没有统一的标准计量规范。说夸大点,哪怕是很便宜的普通晶振——便宜到几毛钱一个的——如果按最流氓的计量方法测算,得到的jitter数值,只要胆子够大、敢说,照样可以说自己是飞秒时钟。

关键的根本在于jitter即抖动性能的实际测试和计量方法。Jitter是可以严格测量的,在通信领域里一般采用本底相位噪音极低的相位噪音仪来测“相位噪音”(Phase Noise)。在测量时必须选择两个频点来定义测试的积分频率的上下限区间,然后通过积分运算得到这个频率区间内的相位噪声曲线框选出来的面积并换算为时间单位,这样才能得到具体的Jitter数值(以上测试方法请教了专业人士)。

Jitter数值测试中可以动手脚的地方就是积分频率上下限的起始频点。如果是真正专业的厂家、认真负责的测定,那就从10赫兹起步开始计算,最终的测试jitter优秀的话也能达到几十到一两百fs,这样的低抖动晶振确实可以称为飞秒时钟。

如果是哗众取宠的、带流氓性质的测试,那么就直接从10kHz甚至更高的频点开始计算,最终的结果就没有意义了。音频数字电路看重的是低频相噪性能,直接从10kHz及更高频率起始计算获得的jitter数值事实上对于Hi-Fi而言没有什么意义。这种情况还称为飞秒时钟的话就算是Bullshit了。

说到底就是一句话:厂家自称的“飞秒级时钟”未必就真的性能那么好。肯定有浑水摸鱼、借这个有人追捧的“名词”来自高产品的。其实,同样的道理推而广之,我们所熟悉的“技术指标”很多都有可操控的空间,具体都是看测量的方法和条件(比如,是在什么输出功率下、在什么失真度前提下、在什么频率区间内进行测量的)。而厂家在提供技术参数的时候,大多数情况下都是只给你一个数字、不给测试条件的,在懂行的人看起来,缺乏测试条件的数值,就是没什么参考意义的。专业素养很高的、负责任的厂家,会自觉地在一个比较严苛的条件下进行测试,而没有什么专业性的、只要求获得一个“好看数据”的厂家,则会利用这个漏洞,故意用很宽松的甚至不负责任的测试条件,来获得很好看的数据。

因此最后回到那个我以前说过不止一次的大道理——缺乏具体测试条件的、不同厂家和测量机构提供的技术参数,是没有可比性的。千万不要拿A厂家提供的数据,去和B厂家的数据进行“横向比较”然后判定优劣。他们的同一个技术参数背后的测试条件我们根本不掌握,那就没法进行对比。技术参数,明明白白是可以“玩弄”的!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多