人工智能努力了60年，才跟柯洁坐在一起下棋

好大水 2017-05-27

展开全文

文/周博磊

　　制造一台可以媲美人类智能的计算机，是计算机科学家一直以来的一个梦想。梦想诞生于60多年前，而直到今天，人工智能终于以超乎前人期望的样子横空出世了。

道阻且长，行则将至

　　1956年的夏天，人类历史上几位最顶尖的计算机科学家在美国达特茅斯学院汇聚一堂。他们之中，有计算机专家马文·明斯基，有信息论专家克劳德·香农，还有两位后来的诺贝尔奖获得者赫伯特·西门和约翰·纳什。这个夏天，他们唯一的任务就是开创一个新的研究领域——人工智能。

　　他们雄心勃勃地表示：“从理论上来说，人类智能的每个特性都可以被分毫不差地描述出来，从而让计算机去模仿。”他们踌躇满志地勾勒出预期目标：“我们希望制造一台人工智能计算机，它可以使用语言，可以理解抽象的概念，可以完成人类才能完成的任务，并且可以不断地改进自身性能。”他们信心百倍地认为：“只要一个夏天，只要有一群优秀的计算机科学家，就可以实现这个预期目标里面的一个甚至多个子目标。”

　　谁都没有想到，为了达到这个预期目标，他们花费了远远超过一个夏天的时间。

2006年，达特茅斯会议召开50年后，当年的与会者重聚达特茅斯

　　60多年后的今天，人工智能终于在人类的生活中占据一席之地。现在，我们已经有机会乘坐自动驾驶汽车，使用智能手机翻译各种语言，我们放心地让计算机修正电子文档和电子邮件中的字词错误……人工智能已经深深融入了我们的生活。

　　只是，我们在享受着人工智能带来的便利的同时，很容易忘记它并不是从一开始就这样“智能”。

　　1956年的达特茅斯会议之后，科学家很快就明确定义了人工智能这一研究领域所包含的方向：机器翻译、计算机视觉、文本理解、语言识别、机器人控制和机器学习。在随后的30年里，大量的资源被投入到这些领域。但遗憾的是，科学家没能在任何一个研究方向取得实质性突破。直到20世纪90年代初，1956年的一些设想才逐渐被实现。

　　成功不仅姗姗来迟，它到来的方式也令人始料未及。从1956年到现在的几十年间，人工智能的研究目标没有变，但是实现人工智能的方法已经发生了翻天覆地的变化。

柳暗花明又一村

　　早期人们采取的是“自上而下”的研究手段。它的思路是，先模仿人类处理语言、文字和图片的过程建立一个数学模型，然后用计算机软件实现这一模型，那么计算机就可以据此进行信息处理和逻辑思维。然而，这种“自上而下”的手段后来被证明是徒劳。早期的研究人员还认为，人工智能的突破性进展将帮助人类进一步理解人脑产生智能的原理，这个观点也不攻自破。

“自上而下”的研究思想试图直接模仿人脑

　　科学家在屡战屡败中终于明白，基于“自上而下”的手段建立起来的系统并不能适应现实生活中千变万化的情形。直到20世纪90年代初，因为几十年的停滞不前，大多数研究人员开始放弃这种基于“自上而下”的模型推演出的普适的智能计算系统，转而专注于开发一些能解决具体任务的智能系统。

　　人工智能最先在具体任务上取得成功的例子是商品推荐系统。它的作用等同于商场里的导购员，可以向消费者推荐适合他们的商品。回答消费者为什么购买某件商品本身很难，但是通过以前的消费记录去预测他们以后会购买什么样的商品会比较容易。比如说，你购买了《哈利·波特》系列小说的第一部和第二部，你就有很大的可能性会购买第三部。进行商品推荐并不需要去理解消费者的行为动机，只需要让计算机从大量数据里估算出商品之间的相关性就足够了。

“自下而上”的研究手段从数据出发

　　从数据本身出发，就是“自下而上”的研究手段的核心思想。因为人工智能领域里的很多问题，并不能用成型的数学理论去解释，但是好在有海量的数据可供分析。这种“自下而上”、从数据出发的研究手段是不是能进一步推广到其他智能任务上呢？

数据胜于理论

　　事实证明，“自下而上”的研究手段在处理语言识别、机器翻译和计算机视觉中的手写识别等任务时大获全胜。到20世纪中期，机器学习的原理日趋清晰：机器不需要从算法层面去理解学习的过程，更不需要以此去模仿人脑是如何“学习”的，它只需要有大量数据支持训练，就可以完成各种任务，也就是说，数据比理论模型更重要。基于这一原理制造的新一代智能机器逐渐占据统治地位。研究人员也放弃了以往持有的“人工智能可以帮助人类理解人脑智能”的观点，因为试图从算法之中去理解人类智能纯属浪费时间——算法的“智能”主要来自于海量的数据训练，而不是算法本身。

　　那么，机器到底是如何学习的呢？

　　在人工智能里，“学习”的定义是，机器根据过去的经验改进自己的行为。这听起来神乎其技，但其实是个非常机械的过程。以电子邮箱中的垃圾邮件过滤功能为例，当我们把一封邮件拖入垃圾文件夹时，垃圾邮件过滤器就会统计这封邮件的发件人和邮件内容中的所有字句，从而计算得出一封邮件由于包含某些信息而被归为垃圾邮件的概率。这使得垃圾邮件过滤器在未来接收到新邮件时，可以通过扫描邮件的发件人和其中字句来判断该邮件是否为垃圾邮件。垃圾邮件过滤器并不需要去理解邮件内容，仅仅去统计字句就足够了。

　　将这种看似简单的统计方法与海量数据相结合，可以实现许多不可思议的功能。这些功能很难用“自上而下”的研究手段直接设计，比如，生成和补全你即将输入的语句，预测你的鼠标下一次会点击在哪里，给你推荐需要的商品，甚至进行语言翻译、手写识别、人脸识别等等。我们根本不需要人为地给智能系统指出哪些是重要的识别特征，只要给它们足够的数据，它们就可以训练有素。

　　如果我们把一些简单的统计方法应用到同一个复杂系统中，并且输入大量的数据来训练它，系统最终的输出结果将会非常智能。不过，尽管它表现得如此智能，它自己并不能解释为什么会有这样的输出结果。这一现象有时被称作“不可解释的大数据有效性”，它给人们上了非常重要的一课：把一些简单的统计方法相结合，并且提供海量的训练数据，计算机系统就可以轻松实现一些曾困扰了“自上而下”的理论派们几十年之久的智能行为。

人工智能与大数据：你中有我，我中有你

　　得益于垂手可得的大数据，人工智能终于走下神坛，在现实生活中有了用武之地：一个个视觉、语言、翻译、问答系统被开发出来；当这些单一功能的系统整合进一个更大的系统，它们就构成了苹果公司的Siri语音助手和谷歌公司的自动驾驶汽车。

　　人工智能的进步离不开对数据的有效利用。于是，现在的人工智能研究人员投入了更多的时间和精力在数据上，比如说如何找到合适的数据，如何利用更多的数据资源。当然，有价值的数据大多是用户行为的副产品，例如人们随手发布的朋友圈或者微博。正因为如此，工程师也在积极开发更多收集数据的方法，比如说在社交平台的图片里标注出自己的好友，给买过的商品打分，参与可以采集地理坐标的游戏，等等。数据，变成了一种新的资源。

　　另一方面，当人工智能展现出强大功能的同时，我们也开发出了史无前例的数据平台。无论是在网上阅读新闻、搜索信息、购买商品、玩游戏，还是收发电子邮件、查询银行账户，我们都在跟数据平台打交道。数据推动着人工智能一步步走向强大，人工智能也推动了数据平台的开发。

未来，无限可能

　　人工智能既是一门强大的技术，也是人类生活的变革者。

　　人工智能带来了多种多样的问题和挑战：它监控人们的行为，暴露人们的隐私，影响我们的决策，取代人类的工作……我们真的准备好了吗？

　　如果我们因智能系统的差错而被无端拒绝入境，或者在就医时被误诊，我们可以向谁申诉？信用记录可以被算法排序，难道我们的个性和认知也一样吗？如果大量的工作被人工智能取代，这个充斥着失业人群的社会会变得更好吗？

　　综合性的数据平台不停地收集个人数据，这使得它可能成为监控人类的装置：它知道我们所在的地理位置，我们浏览器中的访问记录，以及我们在社交媒体上的所有分享。然而我们并不能决定谁可以访问这些记录，这些记录可以用来做什么，或者这些记录是否可以被永久删除。也就是说，我们并不具有个人隐私的控制权。

　　智能系统利用这些数据预测我们的下一步行为，它的本意是更好地服务于人类，但也无形中影响着我们的决策。许多人工智能公司开发的商业模型依赖于用户更多地浏览和点击广告，很明显，当机器获得更多的用户数据，它就能更好地“忽悠”用户点击广告。更糟糕的结果是，用户看到的只是系统最想展示的，而不是自己最想看到的。

　　人工智能已经“飞入寻常百姓家”。因为随处可见，所以我们可能没有意识到这就是“人工智能”，也不会直接把它叫作“人工智能”，但这并不妨碍它在健康、交通、通信、教育等不同领域带来深远影响。人工智能的前沿研究并未停歇。未来，机器学习的一个研究方向是改进和优化几十年前提出的各种“自上而下”的模型。这之后又将会带来怎样的惊喜，我们拭目以待。

　　人工智能为我们的生活带来了无尽的可能性，在这无尽的可能性之中，就包含了人工智能的潜在风险。这个风险并不在于人工智能是否会毁灭人类，而在于它对个人隐私的侵蚀，以及对传统产业、文化和生活方式的冲击。

一张图看懂人工智能的成长路

（点击可查看大图）