微软亚洲研究院副研究员 前一段时间一条“机器首次通过图灵测试”的消息[1]引起热议。多家媒体报导说一个聊天机器人程序伪装成一个名为Eugene Goostman 什么是图灵测试?在一篇1950年发表的著名论文《Computing Machinery and Intelligence》中,数学家阿兰·图灵详细讨论了“机器能否拥有智能?”的问题。有趣的是,作为计算机科学与人工智能领域共同的先驱,图灵成功定义了什么是机器,但却不能定义什么是智能。正因如此,图灵设计了一个后人称为图灵测试的实验。图灵测试的核心想法是要求计算机在没有直接物理接触的情况下接受人类的询问,并尽可能把自己伪装成人类。如果“足够多”的询问者在“足够长”的时间里无法以“足够高”的正确率辨别被询问者是机器还是人类,我们就认为这个计算机通过了图灵测试。图灵把他设计的测试看作人工智能的一个充分条件,主张认为通过图灵测试的计算机应该被看作是拥有智能的。 具体就操作层面来说,图灵在他的论文原文中是这样定义图灵测试的[2]:
这里有几个细节值得注意,它们在很大程度上决定了图灵测试的有效性。 (1)首先,图灵测试中询问者与被询问者之间进行的并不是普通的日常聊天,询问者的问题是以身份辨别为目的。这种情况下询问者通常不会花费时间寒暄和拉家常,而是会开门见山地说“为了证明你的身份,请配合我回答下面问题…”。事实上,目前网络上聊天机器人有时能够以假乱真,往往是采用了在用户在不知情的情况下尽量把谈话引到没有鉴别力的话题上的策略(例如“谈谈你自己吧”)。 (2)其次,图灵测试中人类被询问者的参与是必不可少的,她的存在是为了防止计算机采取“消极自证”的策略,例如拒绝正面回答问题,或者答非所问闪烁其词,就像一个真正的不合作的人所做的一样。在这种情况下,另一个积极自证的人类被询问者可以保证询问者总是有足够的信息做出判断。类似的情况也适用于当计算机试图模仿正在牙牙学语的幼童或头脑不清的病人等“特殊人类”时。 (3)另外,图灵测试的原则是要求询问的交互方式本身不能泄露被询问者的物理特征。在图灵所处的年代这几乎只能全部通过基于文本的自然语言来完成,因此图灵限定测试双方基于打字进行交流。但在多媒体技术发达的今天,视频、音频、图片等等“虚拟内容”都可以通过计算机以非物理接触的形式呈现(这当然是60年前的图灵不能预知的!)。因此,允许询问者在图灵测试中使用多媒体内容作为辅助材料进行提问(例如“请告诉我这个视频的笑点在哪儿”)似乎是对原始图灵测试定义的一个自然合理的补充[3]。 (4)最后,今天一般意义上理解的图灵测试不再严格区分人类参与者的性别。通常我们允许人类被询问者是任意性别,而询问者的目标也随之变成辨别哪一位被询问者是人类。 除此之外,完成一次具体的图灵测试还要注意很多操作细节,例如多少人参与测试算“足够多”,多长的讯问时间算“足够长”,多高的辨别正确率算“足够高”,如何挑选人类询问者和被询问者才能代表“人类”的辨别和自证能力,等等。由于图灵测试的巨大影响力,几十年来一直有人尝试挑战它,不时就会传出“某某计算机程序成功通过图灵测试”的消息。我想,正是对于意义深远的实验,我们才理应格外审慎。只有在仔细检查上面所列和其他一些重要细节之后,我们才能对其结果的有效性做出正确判断。类似几年前“超光速实验”那样的闹剧应该尽量避免。 图灵测试与人工智能是什么关系?如果有一天机器真的通过了图灵测试,这到底意味着什么?这个问题涉及到图灵测试与人工智能的关系。的确,几乎所有有关人工智能的书籍都会谈到图灵测试,但一个经常被误解的地方是,图灵测试是作为一个人工智能的充分条件被提出的,它本身并没有,也从未试图定义智能的范畴。这一点图灵在他的论文里写的很清楚:
图1:智能行为与人类行为的关系 借助集合的概念我们可以更容易地理解图灵测试与人工智能的关系。如图1所示,“所有智能行为”对应的集合和“所有人类行为”对应的集合既有交集又互有不同。在全部智能行为中有一些是人类靠自身无法做到的(比如计算出国际象棋中白棋是否必胜),但无论如何人类都被认为是有智能的,因此,在各方面都能达到“人类水平”— 图灵本人对机器能够通过他的测试相当乐观,他大胆预测“到2000年左右时,一台拥有1GB内存或类似规模的计算机可以在接受普通人5分钟的询问之后,使他们的判断正确率不超过70%”。然而直到2014年的今天,仍然没有任何机器被公认为已经通过图灵测试。有趣的是,这一失败事实反而还带来了一个我们再熟悉不过的应用 图灵测试问题的进展缓慢与目前人工智能学界对图灵测试这个“充分条件”的研究热情不高有关。[5]这一部分上由于主流人工智能研究与图灵测试所追求的目标之间存在差异,同时也因为图灵测试本身难度巨大。下面我们通过人工智能研究的三个重要特征来进一步讨论图灵测试与人工智能之间的异同,以及为什么图灵测试不大可能在短时间内解决。 图2:图形验证码 一、主流人工智能研究关注智能体的外部行为,而不是产生该行为的内部过程 在这方面图灵测试的思想和人工智能学界是完全一致的。只关注外部行为是一个典型的功能主义/行为主义风格的做法,事实上这也是一个人工智能经常被外界所指摘的地方。严格的“主观思考”定义要求智能体具有自我意识。但一方面,从严格的科学方法讲,我们甚至并不真的确定是否有客观证据证实 基于外部行为与主观思考之间的独立性,主流人工智能研究和图灵测试把实现外部行为作为唯一目标,这样的观点被称为弱人工智能观点。我们知道每个学科的研究都基于一个“基本假设”展开。比如支撑物理研究的基本假设是“万物运转都受一套普适的、永恒的规律所约束”,而物理研究的目的“只是”找出这套规律是什么。类似的,“弱人工智能假设”(weak 图3:“机械查表式”的机器 – 西尔勒的“中文屋子”实验 二、主流人工智能研究关注如何模拟人类的纯粹智能活动,而不是全部脑力活动 就像前面提到的,人类的脑力活动 (mental 当然,“非智力特征”的引入本身并不妨碍图灵测试成为一个有效的充分条件,但除非我们假设所有这些“非智力特征”都是拥有智能之后的必然产物,否则不得不承认图灵测试确实在机器智能这个核心问题之外加入了过多充满挑战却又显得不那么相关的因素。就像《人工智能》这本经典教科书里写到的,“航空领域试图制造性能良好的飞机,而不是使飞机飞得如此像鸽子以至于可以骗过其他鸽子。”人工智能研究确实应该更多关注与智力活动相关的抽象功能和一般原则。 三、人工智能的最终目标是能够综合适应“人类所在环境”的单一智能体,而不是专门解决特定数学问题的算法 在这一点上图灵测试与人工智能研究的最终目标也是一致的,只不过现有的人工智能水平离这一目标还相去甚远。事实上“综合模拟人类的智力活动”正是人工智能区别于其他计算机科学分支的地方。我们通过比较人工智能软件与传统软件来说明这一点。首先从最广义的角度看,传统软件也应属于人工智能的范畴:实际上很多早期的计算机科学家,比如图灵,就是以人工智能为动力展开对计算机科学的研究。所谓“计算”本来就是诸多人类智能活动中的一种。一个从未接触过计算机的人也许很难说清 通用人工智能(Artificial General
(本文部分摘录自发表于《NEWTON科学世界》2014年第3期的文章“什么是人工智能?”。文中图片部分引自互联网。) [2] [3] [4] [5]一般认为人工智能学科正式成型于1956年的一次著名的研讨会前后,也就是说图灵测试实际上提出于人工智能领域诞生之前。正如Stuart [6]一个有趣的不同是,人类研究“动物意识”(包括人类自身)的方法恰恰是通过观察动物在特定环境下的外在行为。这背后隐含的假设是我们相信没有意识的动物并不会“有意识地”装出一副有意识的样子(当然!),而这一假设对机器(或者机器的制造者)而言却并不一定成立。 [7]需要注明是,对传统软件的研发同样也并不是计算机科学的全部内涵,就像“计算机”的概念远远不只是“电子硬件”。计算机科学的根本问题是“什么是计算”。而人工智能,作为计算机科学的重要分支,可以认为主要研究“智能是不是计算”的问题。
|
|