DSD格式的音乐体积为什么这么大？

金刚光 2021-05-22

展开全文

一首4分51秒的DSD格式音乐有167MB
同样是无损的flac格式，4分多的只有23MB
为什么同样是无损格式，文件体积差别这么大，是不是DSD包含的信息更多？

如果是，那么flac对于DSD来说是不是算“有损”了？题主需要明白一个概念，“无损”指的不是音频文件对于被录制的物理声源来说无损（事实上，对于二进制数字化信息来说，这是不可能实现的），而是音频文件对于被录制、数字化后的声源无损。

即：无损=1:1的数字化声源≠真实声源

至于这个数字化后的声源被回放时相较真实声源差多少，就要看被数字化时的技术水平了。

Direct Stream Digital，也就是DSD，之所以文件巨大，是因为从1996年一开始它的采样率就有2.4MHz，远超过CD的44.1KHz采样率，更不要说现在的2.8224MHz/5.6448 MHz/11.2MHz标准了。

在限定其它参数的情况下，采样率越高，包含的信息量就越大。

所以，DSD文件的大小会超过普通CD Rip后所获得的文件大小，因为其包含的信息量大。

对于“无损”的概念，Flac对于被Rip的普通CD是“无损”的，DSD文件对于被录制的DSD比特流是“无损”的，但它们任何一个对于物理学意义上的声源都是有损的，因为其经过了数字化。DSD是编码格式应当与PCM编码格式放在同一分类级别常见的flac ape wav等常见格式都属于PCM编码格式

他们本身的工作原理是不同的原理在此处不赘述

根据采样定理在进行模拟/数字信号的转换过程中，当采样频率fs.max大于信号中最高频率fmax的2倍时(fs.max>2fmax)，采样之后的数字信号完整地保留了原始信号中的信息。

这是cd这种数字音源被称之为无损的理论基础实际上采样率越高声音越接近无损，但只要采样率在时间轴上不连贯就不是真正意义上的无损。

cd使用的pcm编码（wav）每个采样点使用16bit记录，考虑到底噪、人耳听觉、文件体积等各个方面因素并没有使用更高的采样率，而16bit/44.1khz的标准也被定为了无损的标准。

sacd使用的dsd编码格式由于工作原理的不同，每个采样点的记录只需要1bit，这种记录方式会带来较大的噪音，所以dsd格式由于每个采样点只需要1bit可以使用更高的采样率，简单理解这样可以获得更好的噪声抑制效果，于是dsd格式使用了cd使用的44.1khz 64倍的2.4mhz采样率，以获得优于cd的声音。采样率高了64倍而码率只是十六分之一，所以同一首歌歌来说体积大致就是cd格式的4倍。

而flac格式又属于pcm编码中的无损压缩格式体积较cd使用的不压缩无损wav格式更小，所以体积上反映出了如此的差距。

但并不是说dsd格式就相对pcm格式更加无损，1bit码流相较16bit码流来说还是有其劣势的，所以简单来说1bit/2.4mhz的dsd格式理论上大致等同于16bit/176khz的pcm格式。对比由cd转至的flac来说还是优秀一些，所以你大致可以理解为dsd较flac更加无损，这是理论上。

实际上还是有更多的因素需要考虑。“无损”指的是抓轨cd的时候没有丢失信息…而dsd是sacd的…sacd的音质是cd的64倍

DSD本质上是一个delta-sigma调制器，delta-sigma调制器的本质是用速度换带内精度，

不知道DSD规范中是几阶调制的，随便用MOD2来定性分析一下吧，假设48K带宽，16bit精度，那么需要的码率48K×16=768kbps，如果用二阶调制的话98dB性噪比，需要的OSR应该是(2^30pi^4/5)^(1/5)=115，差不多128的OSR就够了，那么调制以后的输出码率应该是48K*128*1=6.144Mbps。

如果纯粹定性的话，DSD用速度换带内精度，虽然降低了bit数，但是相同带内性噪比的情况下调制以后，DSD码流中包含了带外噪声的信息。当然如果从信号采样的时候就开始用DSD编码（而不是从PCM重制）的话，DSD码流中当然也包含音频带外的信息，这也就是为啥DSD号称有更丰富的谐波细节的原因。