【原】麦克斯韦的小妖精与小炉老师的伽尔顿板

返朴 2021-03-12

展开全文

《返朴》专栏作家小炉匠老师在群里发了一条有趣的视频，伽尔顿板实验里的小球竟然按颜色分开了，之后引发了群内学者的大讨论。为了让实验成功，麦克斯韦妖再次现身，要符合热力学第二定律，玻尔兹曼、布里渊、Szilard轮番上阵。可是，物理学的熵和信息论的熵是一回事儿吗？

撰文 | 徐晓

前奏

一天，小炉老师在群里贴了一个伽尔顿板的视频^[1]：

伽尔顿板的实验

“这不科学呀！”群里几位学物理的都说。根据热力学第二定律，世界自发的趋势不是越来越混乱吗？小球们怎么会按颜色分开了？

小炉老师看了视频就信了。但是，他自称“生物狗”，“物理小白”，信了也是情有可原的。

可是我们学物理的看完视频，沉思20秒，即刻得出结论：这个视频是PS的！哈哈哈……这结论（当然，你的结论跟我是一样的。），完美！后来小炉老师仔细地搜索，发现视频确实是PS的。

不过，这个视频是真的可以实现的。

Why？因为，小炉老师有麦克斯韦的小妖精！

小妖精

我们来讲讲，啥是小妖精。^[2]

时间要推到公元1871年。在讨论热力学第二定律的时候，麦克斯韦戏谑地推出了一个小妖精。一个装有气体分子的小盒子被隔成两部分，隔板上有个口，口上有门，小妖精就站在那里，或开或关，让运动快的分子进左边，运动慢的则让进右边。这样左边的温度就变高，右边的温度就变低了。结果体系不是温度变成处处一样，而是高温的跑到一边，低温的跑到了另一边，这就明显违反了热力学第二定律。

事实上麦克斯韦之前，在1869年，洛西密特（J. Loschmidt）就已经提出了一个类似的设想。洛西密特构造了一个可以微观上加以控制的小平面，这个小平面根据分子的速度，来控制反弹回一个分子，还是让分子通过。

由于假设了一个并不存在“小妖精”，比之统计力学发展史上的其他责难，这个诘问开始并没有引起太大的重视。

说到这里，我们得走点之马路，先来看看统计力学发展早期的最大麻烦。

时间反演不变性与熵的概率化解释

3.1 时间反演不变性与H定理的矛盾

牛顿力学的核心，当然是牛顿的三个定律了。比如，牛顿第二定律是：

这个公式表明，一个质量为m的物体受到的力为其位移x对时间的二阶导乘上质量。

现在我们另外选个时间，就是把时间轴倒过来，我们发现：

（1）和（2）除了使用的表示时间的符号不同，形式一模一样。这就意味着，把时间轴倒过来，牛顿第二定律还是那个牛顿第二定律。

这个性质非常好，我们经常在电影特技中使用。比如，你从墙上跳下来，结果视频反时间一放，就变成你从地上跳上了墙，轻功了得。关键是，这一过程物理定律依然成立，除非观众知道这是特技，不然是看不出端倪的。

这个性质，就叫时间反演不变性（Time reversal symmetry）。

统计力学的讨论，是从理想气体分子的碰撞开始的。从克劳修斯开始，经过众多学者的处理，到麦克斯韦为止，有关碰撞的理论有了一个比较完整的面貌。1872年，玻尔兹曼在此基础上，提出了一个含有概率思想的理论——H定理。在这个定理中，体系自发地会发展到一个稳定平衡的水平。其中有个参数，以H表示，其随时间的流逝，其负值只可能增大或者不变；当体系到达稳定平衡的水平时，其负值将达到最大。这一点，与热力学第二定律是相吻合的。因为，热力学第二定律表明，一个体系自发发展，将达到热力学平衡态。到达平衡态时，其熵值比这个体系非平衡态的熵值，要大。^[2]

换言之，H值与系统的熵值，有某种对应性。

但是，这个提法，却隐藏着与经典力学体系的深刻矛盾。

由于热力学本质上是一系列关于实验和实践的抽象总结，所以很难有人提出尖锐意见。

但是，理想气体分子碰撞的模型，实际上是弹性小球碰撞的模型，是必须要符合牛顿力学要求的。

牛顿力学是时间反演不变的，而H定理在此基础上发展起来，H值却不满足时间反演不变性。因为初态为非平衡态时，系统自发变化的终态是平衡态，-H值最大；而初态是平衡态时，终态却不能自发进入非平衡态，使-H值变小。

3.2 熵的概率化解释

统计力学建立过程中的很多争论，都是围绕着时间反演不变性和H定理的矛盾进行的。1876年，玻尔兹曼的朋友和同事洛西密特就向玻尔兹曼提出了关于反演不变性的疑问。当时玻尔兹曼非常轻描淡写地回答了：“H定理是概率性的。”^[2]

到了1877年，玻尔兹曼对熵做了完全概率化的解释。^[3]

在1877年的文章中，玻尔兹曼首先对理想气体分子的运动状态划分一个个区间，对状态进行了离散化处理。比如本来一个粒子运动的动能是 [ε, ε+Δε] 中的某个取值，那么我们把 [ε, ε+Δε] 这样的动能区间算作一种状态，叫一个能级，因此这个粒子的动能就属于这个能级。这些分子运动状态就按能级离散了，也就可以统计状态的数目了。然后，他定义了体系的能量状态，即每个能级上分子出现的频度，这种体系状态叫做态分布（德文Zustandeverteilung）。接着，他假定，只要分子数量恒定，体系能量恒定，那么，任何一种满足这两个恒定的态分布，都是等概率存在的。

玻尔兹曼证明，如果分子数量是巨量的，那么体系的绝大多数的态分布，都接近满足同一种分布，即玻尔兹曼分布：

其中， k_B是玻尔兹曼常数，T是绝对温度。

而那些偏离玻尔兹曼分布的状态，不是不存在，只是这些状态的数目比之接近玻尔兹曼的状态的态分布，少之又少。

紧接着，玻尔兹曼又进一步分析了理想气体分子在一定几何空间内的分布，他利用热力学基本关系式

证明分子在绝大多数情况下，是均匀分布在整个空间内的，只有极少极少的情况才会出现大的不均匀。（对于理想气体，有的形式，这说明，V可以用处理E的方式来处理，也说明分子分布的均匀性；这一点，我们另文探讨。）

最后玻尔兹曼给出了统计力学上用的熵的一般定义：

其中W就是态分布再加上空间几何位置合起来考虑的体系的微观状态数目。这些微观状态中，在体系的分子数是巨量时，只有极少极少的状态，才会出现不满足玻尔兹曼分布或分布不均匀的情况；而且，这种情况一旦出现，随着体系的运动，也就很快消失了。

这样，玻尔兹曼就比较完美地回答了洛西密特的问题。同时，也给出了热力学熵的概率化解释。

但是，当熵的概率的解释完全确立以后，麦克斯韦的小妖精，却反而变成了问题：因为小妖精改变的，正是体系取某种“态分布”的概率；因此，它不再像一个开玩笑的“妖精”，而像是真实存在的机制。

小妖精引起的熵变

1929年，美国物理学家Leo Szilard（编者注：Szilard曾协助爱因斯坦致信美国总统促成曼哈顿计划）就非常仔细地讨论了小妖精的熵变。^[4]不过，大约是为了表明这个“妖精”真有可能是某种机制，他不是用的“妖精”（demon）这个词，而是沿用严肃的探讨者们的术语——“智慧主体”（intelligent subject）。

Szilard讨论了好几种智慧主体的工作机制。我们来看看最简单的Szilard热机。

图 1 Szilard热机示意

如图1，小妖把活动挡板插入一个只有单个理想气体分子的气缸中，只要观察一段时间，就会发现挡板被单个分子推动，向某个方向移动。比如，我们很容易察觉，图中挡板将向左移动。小妖只要把定滑轮的上部连轴与挡板连接，而把下部虚线表示的连轴松开，那么挡板就会带动定滑轮逆时针转动；而如果单分子在左面的话，小妖可以连接下部连轴，松开上部的，这样依然可以让定滑轮逆时针转动。当挡板到头，小妖可以把挡板取出，再重新插入中间，而单个分子又可以把从热库吸的热转化成挡板的运动，同时不断拖动滑轮逆时针旋转。如果滑轮拖有重物，那么滑轮就可以把重物拖起，不断将热转化为功。

换言之，只要小妖有观察挡板的运动方向，并且更换连轴连接的能力，气缸就可以从热库中取热，并不断转化为功。

这样一个系统，就可以违背热力学第二定律，实现第二类永动机。

但是，Szilard说，热力学第二定律是不可违背的，人不能，妖也不能。

如何不能?

假设我们是从系统的正中间插入挡板，那么，熟悉热力学的你，很容易算出，挡板从正中间运动到头，是个等温膨胀过程，其熵增为 k_BIn2。

观察小妖，我们发现，小妖做了两件事，一件是插入挡板，并观察挡板运动方向。这个过程，被Szilard命名为测量过程。另一件，是连接连轴的过程。如果妖不能违背热力学第二定律，那就意味着，小妖测量和换轴的过程，是熵减的，它至少使系统的熵减少了 k_BIn2。

它如何进行熵减的活动？Szilard认为，它一定从环境中获得了能量，来测量和换联接，而这个过程，无论如何应该是熵增的，并且熵增应该大于 k_BIn2。

这样把热机、小妖和环境合起来看成一个体系，热力学第二定律依然成立。

这个推理无懈可击。

但是，妖为什么不能违背热力学第二定律？就因为它被称为“智慧主体”？

布里渊的解释

如果在Szilard那里，妖如何观察和判断热机的工作情况，还是一个抽象的说法，那么从1951到1952年，布里渊（Leolard Brillouin）写了一系列文章，则把小妖的观察判断进一步具体化了。^[5]

要理解布里渊的工作，必须知道一个大的背景。

5.1 信息论的建立

1948年，香农建立了信息论，并且在冯·诺伊曼的建议下，借用玻尔兹曼的定义方式，将平均信息量定义为信息熵，并且选用了H定理中如我们前文提到的H，作为信息熵的记号。^[6-7]

因此，在这种情况下，讨论信息熵和统计力学熵的关系，就成为一种必然。

香农的工作，虽然从数学形式上看，和玻尔兹曼的形式上非常接近，但其内涵则完全不同。（玻尔兹曼的H函数是的形式，而香农的信息熵是的形式。）

信息理论的建立，是为了编码。

编码有两重含义，一重是指打电报用的莫尔斯电码之类的编码。这种编码，为了节省打电报用的时间，编码要足够短；另一方面，信息是通过电信号来传输的，就要有一定的信息冗余，来克服信道噪声，以便在接收端正确接收。因此，这一重问题的研究，主要是寻求最短的编码的极限，并以此为基础，再来分析具体的编码方案，在编码效率和克服噪声之间寻求一个平衡。编码的另一重含义，是如何通过快速的机械工作来完成编码。在当时，继电器已经成为一个常规的机械运动控制手段，所以优秀的编码，也意味着尽量少的继电器使用和合理的继电器安排。

编码这件事，本来与玻尔兹曼用统计力学处理的体系的热量、能量和做功等，没有什么关系。

但是，看看Szilard的分析，小妖又要判断测量结果，又要选择与哪个连轴相连，这不是和使用继电器操作机械动作来编码，是一模一样的吗？

而且，通过选择进行动作，既是薛定谔在《生命是什么》里表现出来对生命和智能的基本认识，也是信息理论的重要建立者之一维纳对智能的一贯想法。^[8]

在这样的背景下，布里渊，既作为一个物理学家，又作为信息学家，建立了一套从物理学角度来理解信息熵的学说。

5.2 布里渊眼里的“信息”

自然，布里渊是从麦克斯韦的小妖精开始的。这回，布里渊回到了麦克斯韦最初的小妖精的模型：小妖精必须判断分子的速度。

如何判断呢？小妖精准备了个带了电池的手电筒，然后发出光来照亮分子；按一定时间间隔来照亮分子，就可以判断分子的位置和速度了。

这样的做法有何玄机？

布里渊要给信息的判断引入能量的概念。

如果小妖不带手电筒，盒子里的光只是来自盒子本身的黑体辐射。由于盒子的温度比较低，这时黑体辐射的光波长都很长，因此就算分子本身发光，由于长波长光的衍射，小妖也很难给分子定位；另外，分子的发光非常微弱，也没有办法使分子的光跟整个黑体辐射背景区分开来。

小妖要带一个什么样的手电筒呢？小妖应该带一个能产生高频率光的手电筒。

在布里渊建立模型的年代，需要再过十年才有激光。所以，布里渊不可能想象出激光或者LED这种东西。他假设的发光源是灯丝，我们把灯丝这种光源叫作热辐射光源，其特点是发出波长越短、频率越高的光，灯丝的温度就要越高。

假定手电筒发出的光子的频率为 hν₁ ，那么由于灯丝的温度很高，比之盒子里的温度T高很多，因此根据黑体辐射的普朗克公式，易知，，这正好是一个光子进入盒子这样有温度T的体系，引起的熵增。

如果小妖处的隔板的孔位，正好在一个盒子的正中，那么跟前面Szilard的分析类似，小妖的测试和判决行为，会引起系统 k_BIn2 的熵减。

而小妖的判决，至少要一个 hν₁ 打在一个分子上，反射回来，并被小妖的眼睛所吸收。而这一过程，至少有的熵增。

由此可知，小妖实验和判别带来的熵增，远大于判决后所获得的熵减。

在这一模型中，小妖确实无法违背热力学第二定律。

而这一过程带来的妖的信息测量和判决行为，则成为布里渊从物理学角度阐释信息熵的基础。

基于能量的信息熵

现在，我们可以来总结一下信息学家和物理学家理解的信息熵的不同。

对信息学家而言，其关心的，仅仅是编码的问题，能量并不是一个一定要考虑的因素。

对于物理学家来说，从克劳修斯提出熵的概念开始，熵就与能量和做功紧紧相连，就算是要讨论信息的概念，布里渊也是从光子的能量带来的信息判决开始讨论的。

物理学的概念发展过程，先是讨论热量的变化，再是讨论最可几的状态的态分布，再引申出判决对态分布的影响，最后通过光子引出判决本身所需要的能量。

因此，物理学家的信息熵和信息学家的信息熵的含义是不同的。现实物理世界用信息学家的信息熵来表征的时候，物理体系的自发趋势不一定是熵增的；而用物理学家如布里渊的信息熵来考虑，则一定是熵增的。

小炉老师的小妖精

讲完拉拉杂杂这么多话，终于我们可以来看看小炉老师的小妖精了。

如下视频^[9]：

伽尔顿板的解释

容易想明白，只要我们把不同颜色的小球做成不同大小，然后让轨道有不同的宽窄，那么小球就可以依大小掉入不同的槽。

区分小球的是大小，而不是颜色。而不同大小的球的自然分离，则是依靠轨道有无支撑的力。换言之，在自然的过程中，测量和区分，依然是依靠能量和做功的不同。

依此，我们可以球的大小、或使用重力（让重的向左，轻的向右）、磁力（有磁力向左，没磁力向右）等方式或方式的组合，来设计本文开始的伽尔顿板，对球做出区分。但是，在这些方式中，我们测量的，都不是颜色。颜色的属性，只是碰巧和大小或者别的属性一致。

因此，小炉老师的小妖精并不是麦克斯韦小妖精，没有违背热力学第二定律。

颜色，只是障眼法。

在信息熵的计算中，我们可以考虑伽尔顿板实验的球的颜色；但考虑实验的实现机制时，我们必须考虑基于能量的手段。

一点讨论

听了解释，小炉老师还不死心，他说：布里渊解释的关键是说测量选择造成的熵增远大于粒子分类带来的熵减，损失大于收益，就像在市中心开个卖便宜商品的商店，成本远大于收益。但是如果把球换成巨轮，让选择巨轮所需要的光子能量忽略不计了，那么上述布里渊的还能成立吗？

实际上，只要使用Szilard的热机模型，巨轮仍被看作是个分子，还是处在被闸分成两半的空间内运动，其通过区分而过闸的熵增都是 k_BIn2 ；反倒是巨轮过闸与否，则需要大量的光子来定位和定速，大大增加了测量的熵增。

这篇文章中另外一个需要注意的地方，是当我们提到的颜色、重量和磁力大小等概念时，我一般会说，这是属性。但是，学物理的朋友，容易把属性理解为自由度。这样的理解会影响对问题的把握。因为，自由度有两层含义，第一层是有抽象空间的维度的含义，而属性的含义则广泛得多，从数学的角度出发，只要可以对一个集合进行划分，分成几个不同的子集，这个划分就对应一种属性；第二层含义是利用自由度可以张成相空间，一旦使用了相空间的概念，理解的时候很容易会回到能量和做功的路子上去，就干扰了对问题概念的分辨。

致谢

本文是在我同湖南大学刘全慧教授就熵而进行的争论后产生的。在论战过程中，我邀请了中科院半导体所姬扬研究员、美国乔治敦大学吴建永教授助战，还邀请了本群李轻舟围观；刘老师邀请了本群肖重发围观。

结果，在论战过程中，姬扬和吴建永老师（也就是本文中的小炉老师）都产生了疑问。为了回答他们的疑问，先作此文，为解释工作的开胃菜也。

在审读本文的过程中，吴老师提出了巨轮的问题，李轻舟提出了以自由度理解属性的问题，我的同事陈熹提出了加强伽尔顿板实现的说明的建议。

吴老师对文章多次润色。

姬扬要求每一阅读段落长度基本一致。

本群刘艳红提出了文字润色的建议。

本群张艺琼对文章题目提出修改建议。

本群吕喆统一了伽尔顿板的叫法。

在此，向争论者、围观者、建议者和润色者一并致谢。

如果，你们还有疑问，以及其他观众有疑问，请release horse pass come（放马过来）。

徐晓

于“一边跑一边听”群

参考资料

[1] 视频截取至http://www./watch?v=Axw07_lxhhs

[2] M. Bandino, Mechanistic Slumber .vs. Statistical Insomnia: the Early History of the Boltzmann’s H theorem (1868-1877), Eur. Phy. J, H6, 353-378(2011)

[3] K. Sharp& F. Matschinsky, Translation of Ludwig Boltzmann's Paper "On the Relationship between the Second Fundamental Theorem of the Mechanical Theory of Heat and Probability Calculations Regarding the Conditions for Thermal Equilibrium", Enropy,17, 1971-2009(2015)

[4] Translation of "L.Szilard, ON ENTROPY REDUCTION IN A THERMODYNAMIC SYSTEM BY INTERFERENCE BY INTELLIGENT SUBJECTS " NASA TT F-16723. 德文原文在Zeitschrift fur Physik, Vol. 53, 1929, pp. 840- 856,

[5] L. Brillouin, Maxwell's Demon Cannot Operate: Information and Entropy. I Journal of Applied Physics, v24,N3,334-337(1951)

[6] C.E.Shannon, a Mathematical Theory of Communication, Bell System Technical Journal, v28, N4, 656–715(1949)

[7] Avery, John. Information Theory and Evolution[M], 2003, World Scientific. ISBN 981-238-400-6

[8] L. Brillouin, the Negentropy Principle of Information, Journal of Applied Physics, 24, 1152 (1953)

[9] 视频截取至http://www./watch?v=ya9zTstjOIU