相由“新声”——从统计力学角度看音律发展

real寿元调养 2023-02-22 发布于山东

展开全文

导语

为什么音乐创作需要基于一系列规则？为什么以这些方式创作就容易得到悦耳的音乐？物理学家给出的答案是——相变——声音从嘈杂到和谐的过程，与分子从无序到有序的过程惊人地相似。本文介绍了一项经典研究，用统计力学框架来解释为音律是怎样从无序音符中涌现的。原来音律的背后有深刻的物理与数学约束，而不只是人类随意的发明。

集智俱乐部主办的“复杂科学与艺术”研讨会，正在持续进行中，汇聚各领域内的行动者与思想者——包括科学家、艺术家、学者及相关从业者，展开跨学科研讨，并合作产出。研讨会每月一期，持续至2023年6月（延长至7月）。在研讨会第三期“音乐复杂性、范畴论与声音艺术”中，对本文所涉研究做了具体介绍。加入研讨会即可查看回放视频并入群交流。

关键词：统计力学、十二平均律、协和音、平均场近似、相变、涌现

0. 序

早年间，毕达哥拉斯发现，拨动琴弦所发出的声音与琴弦的长度有关，音高与弦长成反。而这里的音高，指的就是声音的频率。同时，人们还发现当频率之比为1:2的两个声音同时发出的时候，这两个音听起来是“协和（Consonant）”的。人们根据这两个特点，按照音乐演奏需要，研究出了多种“律法”来标注与记录动听的音乐，这些律法就被称为“音律”。音律实际上就是在频率为1:2的两个音之间继续细分，以达到用这些音就可以记录尽可能多音乐的目的。

虽然中西方音乐种类繁多、各具特色，但中西方音律发展的历程与结果却惊人地相似。尽管文化交流在其中发挥了很大作用，但这似乎并不是中西方音律相似的全部原因。在2019年一篇题为《The structure of musical harmony as an ordered phase of sound: A statistical mechanics approach to music theory》的文章中，作者Jesse Berezovsky，凝聚态物理学家，亦是一名中提琴手，他认为音律的最终形成似乎具有一定的物理意义，也许与某种相变有关。

1. 乐理基础音律发展

为了能够更好地理解这篇文章，我们需要花一些篇幅来简单介绍一些乐理知识以及音律发展的历程。

声音的组成

声音的产生源自于物体的振动。当演奏乐器、拍打一扇门或者敲击桌面时，他们的振动会引起介质——空气分子有节奏的振动，使周围的空气产生疏密变化，形成疏密相间的纵波，这就产生了声波，这种现象会一直延续到振动消失为止。

纯音 (Pure tone) 与复音 (Complex tone)

纯音 (Pure tone) 就是最基本的声波，即标准的正弦波 (图1-1)，但是可以被人耳听到的纯音在自然界中几乎不存在，自然界的声波可以被分解成频域空间中各种频率的正弦信号的线性叠加。我们听到的几乎所有声音都是一大群正弦信号的组合 (图1-2)，即复音 (Complex tone)。复音中振幅最大的那个波的频率被称为这个音的“基频”。

图1-1. 纯音时域波形图

图1-2.复音时域波形图

泛音(harmonics)

古希腊人发现了一个有趣的现象，拨弄一下琴弦，这根琴弦除了发出一个响亮的音调外，还会发出一个比这个音调高八度且振幅更小的协和音。在音乐理论中，若一个音的基频为F，则它到它频率两倍（2F）的这个范围就称为“八度”。“高八度”的意思便是基频频率为原来的两倍。换句话讲，他们在八度音程的较低音调中发现了较高音调。而泛音的英文为什么会是“Harmonics”，这是因为琴弦振动产生的声音就是无数简谐波的叠加，最终形成锯齿状的音色。泛音中的基频就是频率最低的那个音的频率，泛音也是一种特殊的复音。

图1-3. 拨动琴弦产生的“锯齿”音色

声与人

振动具有三个很关键的特性：频率、振幅以及相位。一个声音的频率（也就是前文所说的基频）决定了这个声音有多“高”。声波的振幅决定了这个声音有多“响”。相位则代表了声音开始发出的位置。音律是为记录音的“位置”而存在的律学，所以音律研究的重点就是声波的频率。一般来说，人耳能听到的声波频率范围是20赫兹到20000赫兹（每秒振动20000次）。声波的频率越大（每秒振动的次数越多），听起来就越“高”。

但是，我们对音高的线性变化并没有那么敏感，而对音高的指数变化更敏感。举个例子，有如下两个系列的声音：

系列1：

200Hz、400Hz、600Hz、800Hz、1000Hz、1200Hz、1400Hz、1600Hz

系列2：

200Hz、400Hz、800Hz、1600Hz

（每个单音持续时间为3s，同时由于单音的声音较为刺耳，请读者降低音量。）

等差音高 200 400 600 8000 1000 1200 1400 1600音频：00:0000:24

等比音高 200 400 800 1600音频：00:0000:12

（每个单音持续时间为3s，同时由于单音的声音较为刺耳，请读者降低音量。）

对于人耳来说，只有系列2的声音听起来像是具有相等距离的，听起来像是一组“等差”音高。可是实际上系列2的声音是一组等比音高。

协和（Consonant）与不协和（Dissonant）

协和（Consonant）用来形容人们听到两个音时的感受，人们将两个音之间的音高差称作音程。所有听起来悦耳、融合的音程，叫协和音程，也说这两个音是协和的；而听起来比较刺耳，彼此不很融合的音程叫做不协和（Dissonant）音程。所以大家可以发现，协和与不协和都是描述人的感受，所以最早得到的哪些音程协和，哪些不协和，都是通过记录无数人的感觉得来的。

那么哪些音程是协和的呢，我们首先来看看两个单音相互作用产生的结果：

图1-3. 在一个临界带宽内两个音的不协和程度

图1-3表示两个单音相互作用的结果。纵坐标为协和、不协和度。横坐标表示两个纯音之间的音程与较低音的临界带宽的比值，这里要介绍一个新概念：临界带宽 (Critical Bandwidth) 。

临界带宽，这个概念首先被Harvey Fletcher在1933年提出，这个概念成功解释了耳蜗听觉滤波效应和掩蔽效应。

人耳具有十分复杂的结构，临界频带指的是由于耳蜗构造产生的听觉滤波器的频率带宽。人的听觉系统中，耳蜗起着频谱分析的作用，耳蜗基底膜上特定位置点对某一特征频率（Characteristic Frequency，CF）的响应最大，当声波偏离CF点时，该点的响应减少，因此基底膜上每一点可等效成具有特定频率（CF）的带通滤波器，整个听觉系统可等效成一系列具有连续CF的、相互交叠的带通滤波器，称为“听觉滤波器”。临界频带就是听觉系统带通滤波功能的反映，听觉滤波器的带宽即为临界带宽。

再回到图1-3，我们可以知道当两个音的音程处于临界带宽内的某一个值时会存在一个最大的不协和的点。由于低频区与高频区临界频带不同，这个位置也不会相同。

但是我们也提到，纯音在自然界上是不存在的。一般都是复音，那么复音之间的协和关系又是怎样呢，早期学者们将图1中的线条方程写出来（图1的结果是无数实验拟合出来的）再将任意两个复音做傅里叶变换，计算两个音相同次序项之间的协和度，最后加起来就得到了图2的结果。并且这个结果也经过了大量的人耳检验。

图1-4. 一个八度内的协和音程关系(采用锯齿音色进行计算得出的结果)

图1-4中描述了一个八度内两个复音的协和音程关系，这两个复音都是前文所提的具有6个谐波叠加的泛音。其中一个的基频为250Hz，它与任意一个频率在250Hz到500Hz内的音的协和关系如图2所示。纵坐标表示不协和度，横坐标表示另一个音的基频，这里的单位cps (Cycle per second) 与赫兹意义相同。

从图中我们可以看到在一个八度内协和度最高的就是我们最开始提到的1:1与1:2的比例关系，也就是两个250Hz的音，或者一个250Hz和一个500Hz的音。协和度排第二的是当两个音频率之比为2:3的时候，也就是250Hz与375Hz，这个比例也很重要，与后文要提到的五度相生律有重要关系。

虽然这些严谨数学计算得出的结果在19世纪才出现，但其实在很早的时候，人们就发现了两个音频率之比为2:3的时候，这样的音组十分协和，根据这样的原则，人们开始制定音律。

从五度相生律到十二平均律

早年间，不仅毕达哥拉斯发现了2:3是一个十分协和的频率之比，我国先秦时期的《管子·地员篇》也记载了所谓“三分损益律”，具体说来是取一段弦，“三分损一”，即均分弦为三段，舍一留二，便得到 3/2F (F为弦的原频率)。如果“三分益一”，即弦均分三段后再加一段，便得到 4/3F。“三分损益率”就是最早的音律设计方法。但是如果加上一个4/3F的音，那么他与前面几个音的协和程度就远远不足了。（其实在这里我们可以发现，古人最早发现的协和频率比是2:3和3:4。他们并没有采用比3:4更协和的比例3:5。）所以古人一想，不如找3/2F的3/2倍，也就是9/4 F，但是这个数已经比2还大了，并不在我们要的第一个八度区间[F,2F]中。我们必须找到这个八度里的9/4F，也就是用9/4F除以离他最近的一个整数，也就是2。这样它就变成了9/8F。按照这样的方式，古人在没有计算计算机的情况下一直算到了243/32 F。通过如上的对应关系，形成了最早音律，最终这些比例的频率将一个八度音程分成了七份（如表1-1所示）。

表1-1：五度相生律演化出来的八度音阶(注意:音名其实是与固定音高声音一一对应的，比如C4=261Hz，A4=440Hz)

可以看到有两种比例出现，一种是1.125，另一种是1.0535，前一种音程叫做全音，后一种叫做半音。

这套理论是通过2:3的频率比制定而成的，在乐理中这样音程被称为“纯五度”，所以这套音律被称为“五度相生律”。但是这套音律自诞生之起就饱受诟病，因为在弦乐中弹奏1:5和1:6的位置就已经很麻烦了，而且声音很不和谐，现在居然还要弹奏81:64、243:128这样的位置！

对“五度相生律”的修改自其发明的第一天起就没有断过，经过对比例简单的调整后，纯律 (Just intonation) 诞生了。但其实“纯律”的修正也很简单，只是把五度相生律的复杂比例变简单一点。即243/128变为240/128即15/8、27/16变为25/15即5/3、81/64变为80/64即5/4。这样做的好处很容易理解，就是为了容易演奏，可是坏处同样也显而易见，引入了更多不够协和的频率之比。事实上这样的改动是十分失败的！

那既然修“正”不行，那就继续细分。随着数学水平的上升，大家就开始继续细分音节，看看能不能对细分后的音节进行修“正”。于是这次由(3/2)5变成了(3/2)12=129.7≈27=128，这次划分十分细致，已经去到了第7个八度。具体的比例如表1-2所示。

表1-2. 最早的12声音阶

可以看出随着计算能力的上升，这一次的音阶数更多，更加细化，同时有更多的半音出现。“#”表示“升高”的意思，“b”表示“降”的意思，所以除了原始的CDEFGAB以外又多了5个半音出现，这使得整个音阶更加平滑，能够描述更多更复杂的曲调。

可12音阶也存在一个问题：在这12个音阶当中，存在两种半音，它们分别为：自然半音 (比例为1.0535)、变化半音 (比例为1.0676)。这会导致一个问题：假如我想唱一首歌，但是我自己的音域达不到这首歌原调的范围，我只能把这首歌降调来演唱，但是如果每个音阶之间的比例不一样，降一个半音或者一个全音的时候旋律就和以前不一样了，那怎么办？

后来人们又想出了各种修正的办法，比如构造一些等差数列来修正每个音与理想曲线的误差等等，但这些方法既复杂又不能从根本上解决问题。这时整个音乐界都在急迫地等待新律制的诞生。直到公元17世纪，明朝人朱载堉提出十二平均律，虽然可能没有传到西方，但他这却是最早提出十二平均律的人。18世纪的时候，巴赫也创造了十二平均律，但是他的目的不是为了修善音律，只是为了更好的教自己妻子音乐而已。虽然十二平均律看起来很完美，但也不是完全没有问题。

十二平均律（表1-3）的原理并不复杂，既然是平均，那就是每个音之间的频率之比是一样的。因为一个八度为[F,2F]，那么就直接把这个1:2的关系分成十二份，每一份就是(2)1/12=1.059，这样虽然损失了一部分完美的协和频率比，但是这套律法能够为记录和创作乐曲提供了更多可能。乐器之王钢琴上的每一个键对应的频率都可以通过十二平均率推算出来（图4）。

表1-3：十二平均律

图1-5 钢琴音高对照表

至此，要想阅读完这篇论文所需要的一些知识已经全部讲完，论文中提到的其他乐理名词，笔者也会在阐述论文内容时加以补充。

2. 统计物理与音律的发展

这一部分我们将重点讲解Jesse Berezovsky的这篇《The structure of musical harmony as an ordered phase of sound: A statistical mechanics approach to music theory》，看看如何从物理的角度来解释十二平均律的出现。

基本思路

根据上一章的介绍，人们最终选择十二平均律的原因是，它在保证了一定的协和频率比的同时具有“平均”的特性，转调操作十分容易，可以适应更多的演奏。假如用物理或者数学模型来描述某一种“系统”的演化过程，最终这种“系统”中出现了今天的“十二平均律”。那么出现“十二平均律”的这个点应该具有两个特征：一、协和程度尽可能高（Minimizes dissonant sounds.）；二、它能尽可能描绘足够多的“音乐状态”（Allows sufficient complexity to allow the desired artistic expression.）。

所以，作者想到如果将以上两个特征以物理的方式表述出来，并看作某个系统自然演化的方向，那么“十二平均律”会不会就是这个系统演化的必然结果。之前人们对音乐复杂性的研究就已经提出了音乐的复杂性可以由“熵S”来表示，同时加上前文所提到的两个音之间的非协和程度D也可以存在很多经验公式。作者通过将统计力学中著名的亥姆霍兹自由能（F）的表达式（公式1）改写为（公式2）来描述一个具有很多不同基频的声音产生的系统。

对于一个宏观系统来说，最小化自由能取决于内能U与熵S在不同温度下的权衡，而对于这个各种声音组成的系统，要最小化其自由能，就需要降低这些声音之间的不协和度D，同时增加其复杂程度S。这正与以上提出的两个方向吻合。

当然，光是写出这一个方程还不够，还需要确定声音之间相互作用的方式。我们已经知道，任何一个声音都是由一系列频率的波叠加而成的，而其中振幅最大的那个波的频率，也就是这个声音的基频。在音乐理论中，“基频”就是“音高”。而由于组成每个声音的一系列波的振幅，相位等各不相同，所以即使用不同的乐器演奏音高相同的音时，给人的听感往往也大不相同，这就是我们说的“音色不同”。在本文中Jesse使用的就是锯齿音色，也就是“泛音”，这类音色一般可以在弦乐器中找到。

为了简化计算，作者将两个音不协和程度的计算方式设定为：先将组成每个音的波按振幅由大到小排列，然后计算其中相同次序的波相互作用导致的非协和度d，最后将所有的d相加，得到这两个音的总非协和度D。

当然，Jesse首先只计算了一个八度内两个纯音之间的非协和程度与纯音频率差距的关系（如图2-1）。

图2-1. 两个纯音的非协和度与纯音频率之差的关系

其中，

表示两个音之间的频率差距，fa和fb则是两个纯音的频率，且fb>fb，当时，两个音相差一个八度，也就是频率比为2。而其中不同颜色的线条代表处于不同频率区域的两个音的不协和度。Wc为不协和度最高时的音程。当这两个音的频率都很低时，处在低频的一个八度区间内得到的比较大，而高频的八度区间内比较小。

既然知道了纯音相互作用的协和度关系。那么接下来就可以对这个充满很多不同音高声音的体系进行缩小自由能的“实验”了。

平均场近似

平均场理论（Mean Field Theory, MFT）是将随机过程模型中一个单体受到的所有影响近似为一个外部场（External field），从而将多体问题（Many-body problem）分解为多个单体问题（One-body problem）进行求解的理论。这个思想已经在物理学中被广泛使用了。

对于每一个音来说，它受到其它每一个音相互作用。在使用平均场近似后，这个过程变成了一个音与其它所有音组成的“平均场”相互作用，这将大大减少计算量。根据这个原理，定义以下参数：

其中，式（4）代表一个音和其他音产生的平均场之间的频率差距。式（5）用来计算整个系统的不协和度。为音高为“x”的音的概率，代表所有音与音高“x”的音形成的不协和度的总和，积分区间为(0,1]是因为设定了周期性边界条件，(0,1]代表一个八度，积分函数都满足这个周期性的边界条件。最后式（6）表示的是这个系统的熵。

其中，因为概率是一个周期函数，所以很容易想到使用傅里叶级数作为他的表达式。可以将其写成：

图2-2.

(A)当时，计算的锯齿音色不同频率差的两个音的非协和度(图中展示了两个八度)。（B）通过（A）图的非协和度计算出来的公式（8）的每一项的参数dk。

那么，既然所有参数都设置好了，我们就要开始最小化自由能了。在这个系统中，默认，同时温度T只是一个参数，并不代表真实温度。但是我们如果依然去模拟一个T不断变小的降温过程，并且在每一个T下都使得系统的亥姆霍兹自由能最小时，这个系统中的音的频率分布会是怎样的呢？

图2-3. 随着“温度”下降，一个八度内声音概率密度的变化

如图2-3纵坐标表示音的概率密度，纵坐标越大说明在，也就是一个八度内具有某个基频音的数量越多，令人惊喜的是，在T=20.2、T=16.3时，都能看到12个概率相同的尖峰。这说明：若是某一个音乐系统，要具有最小的非协和度，同时要足够复杂时，只需要在一个八度内形成一个有十二项的“等差”音高就行！这正好对应着“十二平均律”的出现。而在T小于16.2时，可以看到12个不同概率的峰出现，这也对应着早期具有12声音阶的纯律。

图2-4.约化序参量随温度的变化情况

同样，我们也可以绘制公式（7）中序参量随温度变化的规律。根据图2-4，似乎可以发现整个系统的“冷却”过程存在一种二阶相变。在这两个临界温度之间存在一种十分稳定的状态——即“十二平均律”阶段。

图2-5. 不同八度内的序参数的变化

因为上一次我们做的平均场近似固定了，但是从图2-1可知在不同高低的八度区间内是不一样的。所以，如果使用正确的会得到怎样的结果呢？如图2-5所示，横坐标为温度，从右到左不断降低以描绘所述的降温过程。左边的彩色矩形显示了不同颜色对应的k值，左边的纵坐标为值，对应右边从C4到C8共4个八度范围。

可以看到，在高频八度范围出现K=12的“相变区间”非常大，而在其他范围会出现一些其他的音律，比如“七声音阶”、“五声音阶”等。作者认为这样的现象来自平均场模型的限制。

原文作者提出的平均场模型近似起到一个抛砖引玉的效果，因为平均场近似并不是统计力学中最准确的模型，作者猜想也许其他模型能够更好解释音乐或者音律发展的同时，甚至可以从物理出发指导音律和音乐的发展！其实在本文的后半部分，作者还是用了XY模型 (XY model) 构建了一个属于音乐的晶格网络，“温度”降低的过程中可以发现：相邻的位置的音程符合一定的规律，甚至可以在这个晶格网络中看到主流音乐所用的三和弦、五和弦。有兴趣的读者可以查看原文，在此就不过多赘述了。

3. 结语

在本文中Jesse Berezovsky使用平均场近似对一个音乐系统进行“缓慢降温”过程，在每一个时间步上都使得组成该系统的音高尽可能协和，同时不失多样性。结果表明，在某个温度下这个系统的音高组成与近代音律的发展相似。似乎在冥冥之中物理和艺术存在着交汇点。这不禁让笔者惊喜而又后怕，惊喜的是没想到严谨的物理与数学居然能够与艺术有所纠葛；后怕的是那些艺术家们穷极一生所创造的作品，就像散落在夜空里的星星。在我们小的时候成为我们夏日幻想，而在长大的某一天我们才意识到那有可能只是一颗冰冷的星球不知道反射了谁的光芒。

不过笔者认为即使是这样人们也不应该停下追求真理的脚步，因为这个世界是如此复杂，要想走到最后可没那么容易；而且无论是音乐、绘画、甚至是表演。既然他如此美好，那么我相信即使人类有一天能够走到最后，结果也应该不会太差。