【原】这篇文章里有多少信息？香农的信息论其实无法告诉你 | AI那厮

返朴 2020-12-23

展开全文

信息是客观存在的吗？很多人认为科学理论的目标是描述世界的“本来面目”，这种观点在物理学界尤为流行，甚至常常被当作不言自明的常识。然而，信息不是某种东西，不是对象的客观属性，而是对应于某种观察、分析、思考的方法。

撰文 | 王培（美国天普大学计算机与信息科学系）

在和智能、认知、思维有关的研究中，似乎一个概念越基本，歧义就越严重，使用中的混乱程度也越高。我前面分析过“智能”（《当你谈论人工智能时，到底在谈论什么？》）“意思”（《“意思”是什么意思？》）和“意识”（《意识是脑中涌现的吗？一场关于人脑、智能和意识的深入对话》）等概念，也讨论了概念定义的一般情形（《新理论该怎么为概念下定义？》），这次让我们谈谈“信息”。

《信息论》与信息量

乍看起来，“信息”的意思应该是清楚的。和前面提到的那些概念相比，这个概念的技术味道较浓，而哲学味道较淡。更加上有信息论为依靠，似乎已经是个科学概念。其实，这恰恰使里面的问题更加隐蔽，而麻烦一点也不小。

让我们先仔细看看“信息论”到底说了什么。人们通常将香农（C. E. Shannon，也译作“申农”或“仙农”）1948年的论文《通信的数学理论》^[1^]看作信息论的基础，其中的一个核心概念就是“信息量”。比如说在一个通信过程中可能出现的消息或信号只有A、B、C、D四种，而它们的发生概率分别是1/2、1/4、1/8、1/8，那么，报告某条消息确实发生所需要的信息量分别是1比特、2比特、3比特和3比特。即使我们不提具体的计算公式（据说科普文章中每增加一条公式就要流失一定量的读者），这个例子也足以说明，香农信息量刻画的是不确定性的减少或是确定性的增加，或者说一条信息的信息量反映了其出乎意料的程度。

这听上去很符合我们的直观：“老生常谈”自然是没有“闻所未闻”信息量大。可一旦我们把讨论的范围从上述的简单例子推广到通信交流的一般情形，各种问题就出现了：

如何确定信号的单位？如果消息是上述字母构成的字符串组成的，则AA的出现概率未必比DD的出现概率高。
如果信息量的计算要求为所有字符串指派概率，所依据的数据从何而来？一个过去从未发生的事件是否可能在未来发生？如果可能，怎么算其概率？
在通信中很多消息本身不描述事件的发生（比如疑问句和祈使句），因此并未消除不确定性（甚至会增加不确定性）。但说它们没有信息，似乎将“信息”的概念用得太狭隘了。

我认为这些问题的共同根源就是：目前的“信息论”其实还是“通信编码理论”，尽管其中覆盖了信息的编码、传输、存储等若干重要方面，却基本没有涉及对信息的理解和加工等方面。因此，不是所有和信息有关的问题都能够在信息论里面找到答案的。香农在《通信的数学理论》中明确说他的理论是不涉及语义的，而这一点被很多人忽略了。

即使只谈“信息量”，至少可以在符号学的下述层面上度量信息：

语形：所有的信息都要占用一定量的载体。根据载体的不同类型，信号度量单位可以是音节、字符等等。在不同信号的总数可以确定的情况下，此度量可以通过编码统一转换成以比特为单位的二进制。如果将编码的长度与其使用概率相联系，也会得到香农信息量。当我们说“云存储比本地存储所能保存的信息更多”或“光缆比电缆具有更高的信息传输速率”时，说的都是这种信息量。这种度量基本不随信息的发送者和接受者而变，而仅仅取决于所涉及的信号及其使用频率。
语义：如果我们把讨论集中于对环境的描述中的信息，则可以根据一个描述的内容计算其信息量。这里我们仍可以用香农的公式，但对其中的概率不再理解成所使用信号的出现频率，而看成对所描述事件的发生可能性的预判。比如同是“外面在下雪”这句话，在六月说就比在一月说信息量大，在广州说就比在哈尔滨说信息量大。即使在同一个环境中，不同的接受者从同一个消息中得到的信息量也可能不同，取决于他们在得到消息之前对相关事态的判断。比如说我已经知道外面在下雪，你再告诉我一遍就没有提供新信息。和香农信息量不同，这种信息量植根于语义，因此和接收者的状态有关，而不仅仅是消息本身的属性。
语用：如果考虑到通信的效用，那么有信息的就不仅仅是陈述句，而信息量也不再取决于内容的新奇程度。比如说“钉是钉铆是铆”（重言式），“你还记得昨天中午的事吗？”（疑问句）和“别走那条路！”（祈使句）都显然是有信息的，而“听君一席话胜读十年书”则更是直接比较两个事件所带来的信息量了。“一席话”的信息量更大，当然不是指说话人语速极快或者说的都是匪夷所思之事，而是指它对听话人的心理产生了重大影响。如果我们有办法对人的心理结构和内容进行完整描述，那么这个信息量指的就是该消息所触发的对这个描述的修改幅度。尽管我们目前尚未建立这种描述和度量，这仍不妨碍我们在直观、粗略的方式下谈论这种信息量。和前两种信息量相比，这种度量对接收者的依赖性已经大到完全不可以忽视的地步了。所谓“见仁见智”说的就是不同的接受者对这个意义下的信息的选择甚至建构。在最极端的情况下，接受者最后得到的信息甚至可能和发送者提供的字面意义相反。

总而言之，即使只谈通信交流，“信息”也有不同的含义，而现有的信息论只处理了其中最简单的情形。上面的讨论同样适用于人类和人工智能。对一个特定系统而言，说某个输入“信息量较大”，这既可能是说其体量大，也可能是指其内容新，还可能是说其影响深。这些度量各有用途，不加区分就容易造成混乱。

信息是客观存在的吗？

如前所述，作为一个科学概念，“信息”先是在通信领域中被引入的，如“主体A向主体B发送了关于对象C的信息”。后来，其使用被推广到描述领域，如“主体B得到了关于对象C的信息”，这里信息的来源既可能是来自某个未说明的发送者（主体A），也有可能来自B对C的观察和分析。最后，一些研究者直接把信息当作对象的属性，如“对象C所包含的信息”。

由于最后一种用法里面的C可以是任何事物，信息的概念在这里就可能被看作是客观世界的一部分，以至于一种常见的说法是“世界是由物质、能量和信息组成的”。更有人认为，信息甚至比其它二者更基本。物理学家John Wheeler 曾提出了一个广为流传的口号 “It from bit”^[2^]，这句话常常被理解为“万物起源于比特”，就是说信息才是世界的本原，而各种事物都是信息的具体表现形式。类似地，霍金（Stephen Hawking）提出了“物体被黑洞吞噬后，其中的信息哪里去了”的问题，有些学者将“万物起源于比特”修改成“万物起源于量子比特”，还有些学者甚至断言宇宙可以被看作一台进行信息加工的计算机。这些结论自然都不是信口胡言，而是有相应的论证和根据的，其中大部分来自物理学。尽管它们的确为一些现象提供了解释，这些观点仍有明显的反直观之处。无论如何，“信息”不是实实在在的东西，说物质和能量都来自于它，难免给人“无中岂能生有”的疑惑感。

在“一个对象”和“对此对象的描述”之间，存在着微妙的差别，而信息在其一般意义下是关联于后者的。“一个人”和“这个人的照片”显然有关联，但不是一回事。问这张照片里有多少信息是有意义的（比如说其中的像素数量就是一种语形信息量），但问这个人里有多少信息就未必有意义了。由于信息的基本意义是关于描述的，将其直接用于描述对象只有在存在唯一描述时才行。就拿前面的例子来说，如果某人只有一张照片，那么以照片的属性作为此人的属性还算是情有可原（尽管严格说来仍不妥），但如果此人已有若干不同的照片，以某张照片的属性作为此人的属性就没道理了。

很多人仍然认为科学理论的目标是描述世界的“本来面目”，而这种观点在物理学界尤为流行，甚至常常被当作不言自明的常识。我在《证实、证伪、证明、证据：何以为“证”?》中已经列举了若干反对理由，其中就包括量子力学所展示的观察者对观察结论的影响。尽管世界不依赖于观察者而存在，但对世界和其中的事物的所有描述都或多或少地依赖于观察者的特征与状态。严格说来，“描述”所体现的不是描述对象的属性，而是描述者和描述对象的关系。当一个对象可以在不同角度用不同词汇来描述时，每个描述都提供了对象的信息，但又都不能穷尽对象的所有信息。因此，除非针对一个特定的观察过程，否则谈论一个事物中“有什么（或多少）信息”是没有一般意义的。没人有理由认为他们目前的理论或概念来自于世界本身，或代表了认识所能达到的极限，而不受他们自身的认知能力和历史环境的影响。

根据上述理由，我认为把信息看作对象的客观属性是缺乏一般性的做法，只能在特定的范围内作为一种简化或近似的说法。问一个人或一块石头里面“到底有多少信息”不是个有意义的问题。

我的信息观

在我看来，“信息”及其相关概念（信息量、信息收集/表示/加工/处理、…）属于一种方法论，而非本体论。这就是说，“信息”不是某种东西，而是对应于某种观察、分析、思考的方法。因此，我们不能说一个事物中有什么信息，而是要说如果以这种视角来分析一个事物，我们能得到什么结论。

举个例子：“我得到了外面正在下雨的信息”是“我看到了外面正在下雨”“我听到了外面正在下雨”“我听说了外面正在下雨”等等情形的笼统表示。我采取这种说法来抽象地表达对外界状态的认识，而有意省略达到这一认识的具体过程。类似地，在设计和分析计算机中的过程时，我们常常采用“信息加工”的观点，即抽象地讨论系统的状态转移过程，而不涉及具体实现这一过程的物理细节。同样，当我们讨论人脑中的“信息加工”过程时，也是抽象地讨论其中的状态转移过程，而不涉及具体实现这一过程的生物、化学活动。

这种抽象的必要性和可能性都来自于“高层描述”和“低层描述”的“一对多”关系。这就是说尽管“看到”“听到”“听说”等等是非常不同的过程，它们对我“是否要打伞”这一决定而言是不必区分的，所以可以统称“得到信息”。同理，当在计算机中对一组数据进行排序时，我们只需抽象地考虑操作步骤，而不去提及在此过程中电子是怎样流动的。这当然不是说排序不需要电流，而是因为很多不同的电流活动都会导致同样的排序结果。在这种情况下，在电子水平上讨论排序反而是说不清楚了。

在计算机科学中有一个重要概念：“虚拟机”，指某些软件为系统提供了一个特定的描述，包括可以执行的操作等等。这样做的一个常见目的就是用一种计算机去模拟（或“仿真”）另一种计算机。每个虚拟机都提供了一个抽象层次，使得用户不必考虑在这个层次之下的过程。比如说所有数字计算机都采用二进制表示，但这不意味着十进制运算不可能完成。只要有一套恰当的程序，对用户来说这个系统就是一台能进行十进制运算的机器。至于这些运算是由机器硬件直接完成的，还是经过了软件的“翻译”，这是无关宏旨的。用户完全可以认为是前者，尽管这种机器是“虚拟”的。

虚拟机抽象可以进行任意多层，而每层上面所得到的“机器”可能有不同甚至相反的特征。不了解这一点就会对计算机的能力产生重大误解。比如说，现在仍有人说计算机归根结底是用二值逻辑的，因此不可能具有人脑的很多认知功能——其实这就和说“计算机归根结底是用二进制的，因此不可能进行十进制运算”一样荒谬。这种“归根结底”式的论证尽管乍听起来直截了当，在分析一个复杂系统时却常常做出似是而非的结论。当抽象层次足够多、足够复杂时，系统的高层性质和低层性质已经没有直接关系了。

信息的抽象性恰恰是反对“归根结底”式的还原论证的。如果对某个过程的描述或解释不可避免涉及其中的物理、化学、生物等层面上的活动，那么将这一过程作为“信息加工”来分析就是不恰当的。就像当你找一本书来垫桌腿时不把它看作信息载体一样。计算机当然常常是作为信息系统来分析的，但如果现在要解决的是其散热问题，那么谈信息就于事无补。如前面提到的，这里的问题不是这台计算机是不是信息系统，而是应不应被当成信息系统来分析。同理，人脑中的某些过程可以被作为信息加工来分析（这就是认知心理学的基本思路），但另一些过程则不可以这么分析，比如大脑的供血机制。

这个问题对人工智能有根本性的意义，因为这个领域的一个基本假设就是计算机和人脑在某个抽象层面上相似甚至可能相同，尽管在这个层面之下二者完全不同（前者是机电的，后者是生物的）。如果有一天发现我们叫做“智能”（或者“认知”“思维”“精神”等等）的性质具有不可摆脱的“生物性”，那就说明非生物的计算机不可能真的有这种性质。当然一直有人这么想，但他们的论证还没有强到说服很多人的程度。我自然认为这种抽象是可能的，而“信息”恰恰提供了一个合适的描述层次。A General Theory of Intelligence这篇书稿^[3^]就是我在信息层面上构建智能理论的努力。

这篇文章里有多少信息？你说“完全不知所云”或“彻底颠覆三观”都算正常，而且你实际接受到的信息也未必就是我在试图发送的信息。

参考文献

[1] Shannon, C. E. (1948). “A Mathematical Theory of Communication”. The Bell System Technical Journal, Vol. 27, pp. 379–423, 623–656.

[2] Wheeler, J. A. (1990). "Information, physics, quantum: The search for links". In Zurek, Wojciech Hubert (editor). Complexity, Entropy, and the Physics of Information. Addison-Wesley.

[3] Wang, P. (2009). A General Theory of Intelligence (a developing eBook, online since 2009). URL: https://cis./~pwang/GTI-book/.

注：本文所提到之作者其他文章，可进入公众号底部菜单“精品专栏-AI那厮”查阅。点击https://cis./~wangp/Chinese.html，可查阅作者所有科普文章和科普视频。