智能机器的探索之旅 — 图灵测试

阿里山图书馆 2020-03-28

展开全文

计算机可以拥有智能吗？在计算机中运行的程序能像人类一样聪明地行动吗？这些都不是简单的问题，几百年来科学家和思想家苦寻答案而不得。荷马的《伊利亚特》最早提及会思考的机器（赫菲斯托斯的自动轮式三脚架），其他文学作品（包括玛丽·雪莱于 1818 年出版的小说《科学怪人》）中也描写了类似的机器，但直到多年以后人们才开始认真思考机器能否表现出智能行为的问题。阿达·洛芙莱斯在为梅纳布雷亚的《查尔斯·巴贝奇发明的分析机概述》做注释时，似乎对这个问题给出了否定的回答，她指出分析机只会执行指令，而不会发明任何东西。由于创造力通常被视为智能的标志之一，因此这似乎表明阿达·洛芙莱斯认为计算机不可能拥有智能。

对于这个问题，后来有更多的研究人员持更加乐观，有时甚至是过于乐观的态度——许多人预测智能机器将在 2000 年出现。

人工智能

现代人工智能（AI）研究始于 20 世纪 50 年代中期。1956 年夏天，在达特茅斯学院召开的一次会议使人们对这个领域产生了极大的热情。许多与会者后来都成为该领域的领军人物，其中包括马文·明斯基、赫伯特·西蒙、约翰·麦卡锡和艾伦·纽厄尔。一些权威大学和研究机构，包括麻省理工学院、卡内基 – 梅隆大学、加州大学伯克利分校和斯坦福大学，先后建立了人工智能实验室。许多研究人员开始编写程序，尝试解决之前被认为需要用到智能的诸多问题。纽厄尔和西蒙编写的“逻辑理论家”程序可以证明数学定理，包括怀特海和伯特兰·罗素在《数学原理》中列出的一些数学定理。最终，“逻辑理论家”找到了怀特海和罗素在这部杰作中列出的几十条定理的证明方法，有些比当时已知的证明方法更简洁。亚瑟·塞缪尔编写的“跳棋”程序通过 α–β 搜索——一种搜索游戏树的方法——化身为一名相当厉害的跳棋手，其水平之高足以战胜它的程序设计员。最终，人工智能系统变得精通下棋、规划行动、调度，以及执行其他复杂的任务。

然而，智能是一个比人们曾经以为的更难以捉摸的概念。人们通常认为，解决上述任何问题都离不开智能，但我们根本不知道计算机用于解决这些问题的技术，是否赋予了它们通用类人智能。事实上，这些问题是用专门的方法来处理的，而且总的来说这些方法与人类使用的方法大不相同。例如，下国际象棋的计算机对未来的可能局面进行非常广泛的搜索，利用其极快的速度每秒评估几百万个局面，而人类冠军几乎不可能采取这种策略。计算机在进行语音识别和人脸识别时也会使用类似的专门技术。

早期的研究人员试图通过建立符号操作系统来解决人工智能的问题。他们的想法是，通过构建某种程序，按部就班地模仿人类的智能行为。他们研究并最终解决了人类日常处理的某些简单问题，比如演绎、推理、规划和调度。但是，这些任务也给研究人员带来了意想不到的困难，因为它们大多难以表述，还有一些难以计算。事实上，我们日常生活中解决的许多问题都是难解问题，因为它们都属于 NP 困难问题。例如，规划一系列相互依赖的行动，使世界从当前状态变成预期状态，这就是一个难以计算的问题，也是一个已知的 NP 困难问题。但是，人类每天都会解决 NP 困难问题，而且无须花费太多时间。我们不能把它视为人类大脑比计算机更强大的证据，而只能把它看作启发式方法（在大多数情况下都有效，而且能找出近似解）经过数百万年的进化，已经发展并融入了人类推理过程的证据。

尽管如此，通过开发尖端的技术，人工智能研究人员成功地解决了许多重要问题，这些解决方案现在也被应用于诸多领域。例如，列车和航班时刻表通常就是由基于人工智能的系统设计的，许多企业还使用人工智能研究人员开发的技术进行数据挖掘。语音识别系统起源于人工智能领域，目前得到了广泛应用。事实上，人工智能技术已经无处不在，几乎每天都有新的应用程序问世。

但是，设计一台公认的智能机器，仍然是人工智能研究人员无法实现的一个目标。一个重要的原因在于，智能是一个让人捉摸不透的概念。在国际象棋程序达到目前的水平之前，人们普遍认为要达到国际象棋锦标赛的水平，就需要强人工智能，即类人智能。但是，在为下棋设计特定的程序（算法）时，人们逐渐发现，无须强人工智能，使用蛮力搜索算法和尖端的局面评估启发式算法就可以达到目的。在研究诸如规划、语音理解、人脸识别和定理证明等许多其他问题的过程中，我们对人工智能的理解也发生了类似的变化。在某种程度上，我们似乎认为强人工智能难以实现的原因在于，人工智能研究人员尚未找到恰当的算法。

强人工智能难以实现，可能还有一个更重要的原因。我们之所以认为人类的行为方式是智能的，是因为人类能够把来自许多不同领域的知识和经验相互联系在一起。即使是像理解言语这种简单的行为，也需要在人的头脑中建立一个完整的世界模型。一个程序只有存储了一个完整的与人类所用模型类似的世界模型，我们才会认为它具有类人智能。建立这样的模型是一项非常复杂的工程。人类通过进化在头脑中构建了世界模型，并持续利用这些模型来消除感知的歧义，预测行为的结果，以及制订计划。然而，我们并不知道如何以明确的方式构建这样的模型。这也解释了为什么这些早期的探索人工智能的方法，只能产生非常有限的结果。

我们如何判定一个程序是否拥有智能呢？如果一台机器能够识别和合成语音，也能技术精湛地下国际象棋，难道我们不应该认为它拥有智能吗？我们如何将智能机器与只能运行某些特定算法及执行给定任务的机器区分开来呢？如果一个人能用英语和我们交谈，国际象棋下得也相当不错，即使我们对他在其他领域的能力存疑，我们肯定也会认为他是智能的。我们是不是过于以人类为中心，而对机器的要求又太高呢？

除了对计算理论做出了重大贡献以外，阿兰·图灵还提出了如何判断机器是否拥有智能的问题。在他最初的一项分析中，他假设机器最终可以达到相当不错的下棋水平。然后，他提出了一个问题：如果人类观察者只能看到棋盘上棋子的移动，那么他能判断出哪一步是机器下的，哪一步是那个糟糕的人类玩家下的吗？

最终，图灵的想法演变为图灵测试。1950 年，在他的开创性论文《计算机器与智能》中，图灵提出要解决“机器会思考吗？”的问题。他没有尝试定义“智能”、“机器”等难以捉摸的概念，而是将这个问题更改为 “机器能做人类（作为会思考的实体）做的事吗？”。

▲ 图灵测试一个标准的模式：C使用问题来判断A或B是人类还是机械(图自维基)

图灵测试的灵感来自于模仿游戏。模仿游戏是一种派对游戏：一名男性和一名女性分别进入两个不同的房间，然后参加派对的宾客向他们提问，他们通过打字来回答宾客的问题，最后宾客根据他们的回答判断他们分别在哪个房间里。在原始游戏中，一名玩家要想办法诱导提问者做出错误的判断，而另一名玩家则要帮助提问者做出正确的判断。图灵提出用一台机器取代那名女性玩家，而且那名男性玩家和这台机器都要想方设法让宾客相信他们是人类。后来，图灵建议由一个评判小组向人和计算机提问。如果评判小组中有相当大比例的人认为计算机是人，就代表它通过了测试。

图灵测试之所以经得起时间的考验，是因为它规避了我们对智能的定义中可能包含的极其明显的人类中心主义的偏见。至少，评判小组不会简单地根据它的外观来判断某个事物是不是拥有智能。

然而，图灵测试仍然带有强烈的人类中心主义偏见，因为它迫使计算机模仿人类的行为。出于这个原因以及其他一些原因，即使对今天最先进的人工智能程序来说，图灵测试的难度仍然非常大。要通过图灵测试，计算机必须拥有类似于人类的推理能力、记忆力、感觉和情感，因为评判小组向它提问的问题没有任何限制。最终，任何非人类的行为（比如情感缺失）都可以用来区分计算机和人类。例如，评判小组可以问程序它最久远的记忆是什么，最痛苦的经历是什么，或者它是否喜欢吃寿司，等等。

图灵预见了他的提议将面临的大多数反对意见，并将它们划分为九大类。事实上，所有反对图灵测试和人工智能可能性的观点，都可以归入其中的一个大类。这些反对意见值得我们详加讨论，其中有一些易于应对，因为它们没有科学依据，要么是形而上学的，要么完全不合理。

来自神学的反对意见认为，思维是人类不朽灵魂的产物，因此不能被机器模拟。它基于这样一个假设：人类在宇宙中是独一无二的，是唯一有灵魂的生物。

基于行为的非形式性的反对意见认为，没有任何规则可以描述人类在所有可能情况下的行为，这意味着人类的行为永远不可能被计算机模拟。在某种程度上，它等价于人类智能是非算法的观点，这使得它与下面的一个观点非常相似。

逃避现实的反对意见认为，会思考的机器将会导致极其可怕的结果，它之所以永远不会出现，原因可能是人类有意避免它的发展。但是，人类似乎还没有为规避风险而成功避开某项技术的先例。这个观点与我们将在第 12 章中简要介绍的超级智能的风险有关。

有两种反对意见基于同一种观点，即大脑不是图灵机的等价物，理由要么是大脑能（以某种不明确的方式）计算不可计算的函数，要么是因为脑细胞处理实值信号的固有能力让它比图灵机更强大。我们在第 8 章、第 9 章分析人脑工作原理和人脑仿真面临的问题时，将会分析这种反对意见。但必须指出的是，许多人都坚信这个观点是对的，我们也必须承认这个问题在很大程度上仍未得到解决。

有一种反对意见最早是由阿达·洛芙莱斯提出的，理由是计算机必须遵循固定的规则，因此它们不可能有独创性，而且它们的行为总会产生可预测的结果。这种反对意见忽略了现代工程师和科学家都很清楚的一个事实：即使完全是由固定规则定义的，极其复杂的系统也会产生完全不可预测的行为。

还有一种反对意见认为，人类拥有超感官知觉，它是机器无法仿真的。由于超感官知觉只在控制条件下才能观测到，因此这种反对意见无足轻重。最后一个是来自哲学的反对意见，它可能比其他反对意见都深刻。它认为智力只能源自意识，而处理符号的机器永远无法获得意识。多年后，约翰·塞尔在中文房间思想实验中，以更加明确的方式论述了计算机永远不可能拥有意识的观点。

塞尔的思想实验始于一个特定假设：人工智能研究人员成功地建造出一台似乎可以理解中文的计算机。计算机接受汉字输入，并按照一系列固定的规则生成汉字输出。塞尔辩称，如果计算机能够胜任这项任务，成功地骗过一个会说中文的评判小组，根据图灵测试的标准，我们就可以得出这台计算机懂中文的结论。但是，塞尔认为这个结论是错的。他让一个不懂中文的读者想象自己被关在一个封闭的房间里，面前有纸、铅笔、橡皮擦，还有一本英文版的计算机编程指南。在接收到汉字后，读者可以通过查看书中的指令来处理这些汉字输入（模拟计算机程序的行为），并生成汉字输出。由于房间操作系统可以在不懂中文的情况下通过测试，因此我们推断计算机也不懂中文。

当然，塞尔的观点中隐藏着一种强烈的人类中心主义偏见。他认为，一个系统（房间、计算机指令，以及人类或数字计算机）即使一个汉字都不认识，也可以神奇地用中文对话。只当人类在某个环节以某种方式将一个盲目的计算过程转变为一个有意识的过程时，塞尔才会将其归因于理解的魔力。然而，这恰恰是图灵试图规避的偏见，在他提出的盲测中，评判小组不知道评判对象是不是人类，也就不会受到相关偏见的影响。

图灵详细说明了评判小组和玩家之间应该如何互动。问题和答案要用打字机打出来，以避免口语理解方面的困难，而口语理解并非问题的核心。得益于近年来语音识别和语音合成技术的进步，这个难题在不久的将来可能会变得无关紧要。我们可以想象，在成熟的图灵测试中，评判小组与人类或合成化身之间的实时对话，将取代图灵规定的打字机界面。

多项实验已经证明，我们必须谨慎对待图灵表述的那些条件，切忌过于简化。1966 年编写的一个名叫 Eliza（伊莉莎）的简单程序，使用简单的规则来模仿心理治疗师的行为，以至于很多人都以为它是一位真正的心治疗师。1992 年编写的一个名叫 Parry（佩里）的程序模仿了偏执型精神分裂症患者的行为，看完对话的精神科医生中约有一半人信以为真。多年来，许多其他程序据说都通过了图灵测试。但是，它们只是在有严苛限制条件的图灵测试中取得了成功，而且我们有足够的理由相信，计算机还要再过几十年才能通过无限制条件的图灵测试。不过，这并不意味着它永远不会发生。

1990 年，在图灵的论文《计算机器与智能》发表 40 周年之际，萨塞克斯大学召开了一场关于图灵测试的学术讨论会，将一大批学者和研究人员聚集在一起。这次会议取得的成果之一是创立了勒布纳奖，被评委评选为最像人类的程序可获此奖。目前的比赛形式是进行标准图灵测试，包括用打字机打出答案。在 2008 年的比赛中，经过 5 分钟的对话，Elbot（艾尔伯特）程序骗过了 12 名评委中的 3 名，让他们误以为它是人类。这与图灵最初提出的骗过“相当一部分”，即 30% 的评委的目标非常接近。但是，5 分钟的对话并没有多大意义。后来，勒布纳奖组委会规定必须进行更长时间和更严格的测试。在我创作本书期间，2013 年的勒布纳奖得主—— Mitsuku（水谷）聊天机器人可以在网上与人互动。如果测试它，你很快就会发现它的确是一个计算机程序，它有一个相当肤浅的世界模型，它离通过不带任何偏见的图灵测试的真正类人智能还差得很远。

在有史以来提出的所有评估机器智能的测试中，图灵测试仍然是最独立和最公正的一个，但它也有缺点，而且许多人都反对使用它。最明显的反对意见是，测试的效力取决于评判小组的老练程度。有些人可能很容易被蒙骗，但有些人对技术和所要讨论的问题更了解，不太容易受到误导。还有一个更强烈的反对意见是，图灵测试可能会仅因为机器的智能行为与人类行为不够接近而直接将其归为非智能行为。即使是亚瑟·克拉克在他 1968 年出版的小说《2001 太空漫游》中虚构的神秘计算机 HAL（哈尔）等超人类智能，也完全有可能通不过图灵测试，因为它们的思考方式与人类的思考方式大不相同。

总的来说，图灵测试对人工智能的发展来说并非不可或缺。人工智能研究人员已经解决了许多具有立等可见的实际用途的具体问题，但还未在开发具有类人行为的程序方面投入显著努力。尽管如此，由于图灵测试引出了一些哲学问题和挑战，因此它在计算和人工智能的发展史上仍然占据着重要地位。