分享

《科学》封面论文作者力作:搭建像人一样思考和学习的机器(附论文下载)

 昵称7360824 2016-05-02

1 新智元编译  

来源:arXv.org

译者:王婉婷


【新智元导读】纽约大学的B. Lake、MIT的J. Tenenbaum等人2015年底在《科学》刊发封面论文,描述“看一眼便能学会写字”的计算机。Lake、Tenenbaum等人今年4月又出力作,结合神经网络最新进展与更为结构化的认知模型,提出搭建类人学习计算机的一些可行方法。论文强调了降低训练数据量以及加强任务迁移,并预见了这些因素会如何推进核心人工智能的实际应用。



搭建像人类一样学习和思考的机器

Building Machines That Learn and Think Like People

作者:Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum, Samuel J. Gershman


下载论文请关注新智元微信公众号(AI_era),回复“0501”。


摘要 


最近在人工智能方面的进展重新激起了人们对于搭建像人类一样学习和思考的机器的兴趣。许多进展都来自于在物体识别、视频游戏、桌面游戏之类的任务中运用深度神经网络训练的端到端系统,这让系统在某些方面的表现达到了与人类相似、甚至超过人类的水平。尽管这些系统是基于生物学上的启示而搭建的、也取得了不错的表现,但是它们与人类智力在一些重要的方面仍然是有所区别的。除了目前工程方面在机器学习什么与机器如何学习这两个问题上的趋势之外,真正的像人类一样学习和思考的机器还可以做到什么样的地步?我们回顾了认知科学中与此有关的一些进展并提出,这些机器应该


  1. 为世界建立支持解释与理解的因果模型,而不仅仅是解决模式识别问题;

  2. 基于物理学和心理学中的直觉性理论,学习之后能支持并拓展学习到的知识;

  3. 利用组合性(compositionality)与学习如何学习的方法(learning-to-learn)来快速获取知识、快速将知识泛化到新的任务与情境中。


将神经网络近期的进展与更为结构化的认知模型相结合,我们提出了通往这些目标的切实挑战与充满希望的途径。

 

1. 简介


人工智能一直以来都是繁荣与破灭交替更迭的情况,不过,无论采用哪一种传统上对于成功的衡量标准,过去的几年都可以说是不寻常的成绩。其中大部分进展来自于最近在“深度学习”——以使用多层表征来学习大型神经网络风格的模型为特征——方面的进步。这些模型已经在许多领域取得了相当值得称道的成果,包括物体识别、语音识别、控制等等。在物体识别方面,Krizhevsky、Sutskever与Hinton(2012)训练了一个深度卷积神经网络(convnets),使得在目前最具挑战性的基准测试指标上,相比于原先最先进的模型,错误率降低了接近一半。在自动语音识别方面,隐马尔可夫模型(HMMs)自1980年代晚期以来成为主流方法,然而这个框架被逐步瓦解、改换为深度学习的元素。现在,语音识别方面最重要的方法全部都是神经网络系统。深度学习引发的一些想法也被应用在学习复杂控制问题方面。V. Mnih等人(2015)融合了深度学习与强化学习方面的想法,构建了一种“深度强化学习”算法,能够从简单的像素边框和游戏分数中学习怎么玩许多简单的视频游戏,并在其中许多游戏中都取得了人类水平或是超越人类水平的表现。

 

这些成就令神经网络重新回到了机器学习领域中执牛耳的地位——就像它们曾红极一时的20世纪80年代晚期和90年代早期一样。神经网络在近期的成功受到了学术界的瞩目。在业界,Google和Facebook之类的公司都拥有活跃的研究机构在探索这些技术,而基于深度学习的物体及语音识别系统已经被部署到了网页和智能手机平台的核心产品之中。媒体也报道了神经网络的许多近期进展,通常在表达这样一种观点:神经网络能取得近期这样的成就是由于它们使用了类似于人类大脑的计算方式以及由此具备的模仿人类学习和人类认知的能力。

 

对于机器来说,像人类一样学习或是思考意味着什么?在这篇文章中,我们将这种热潮视为一个机会来思考这个问题。我们首先回顾了之前由认知科学家、发展心理学家、以及人工智能研究者提出的一些标准。然后,整合认知科学方面的理论思想和研究数据,提出了我们认为搭建这种能够像人类一样学习或是思考的机器时所必须的因素。接着,根据这些必要因素,我们审视了当前的人工智能(特别是深度学习),发现深度学习模型尚未包括其中的许多元素,因此在解决一些问题上可能使用的方式与人类十分迥异。最后,我们讨论了我们认为的最有可能通往像人类一样学习和思考的机器的途径。



A. 文字识别;B. 红框标注的视觉图像 (i) 足以提供新样本归类;(ii) 产生新的样本;(iii) 按关系将对象拆解;(iiii) 从相关概念中生成新的概念。图片来源:论文/Lake, Salakhutdinov, and Tenenbaum (2015)

 

除了我们提到的必要因素以外,我们还得出了通往智力的两种不同计算方法之间的更宽泛的区别。统计学上的模式识别方法,包括许多为分类任务而训练的深度学习算法,将数据中的模式作为思考的第一要点。从这个角度出发,学习是探索这些模式的过程,通常通过许多层的特征提取来达到目标,而模式识别的操作化表现则是识别和分类。另一种方法将世界的模型(models of the world)视为第一要点,学习是建立模型的过程。认知和思考关于的是使用这些模型来理解世界、解释所见之物、想象本可能发生却未发生之事、想象本可能为真却未为真之事、随后规划行动来达到改变的目的。模式识别和模型建立之间的区别,预测和解释之间的区别,对于我们对人类智力的看法是至关重要的。就像科学家寻求解释自然、而不仅仅是预测自然一样,我们将人类智力视为一种建立模型的活动,在随后的文章中用了大量例子阐述这个重要的观点。

 

1.2 重要观点概观


这篇文章的中心目标是为建立学习和思考方面更接近人类的机器而提出其所必须的一组核心因素。我们将在Section 4中详细解释其中每一种因素和每一个话题,在这里我们简要地做一个概览。

 

第一组因素聚焦于儿童发展中的“起始软件(start-up software)”,或者说儿童发展中较早表现出来的认知能力。聚焦于儿童发展是有一些原因在的。如果一个因素在发展早期就表现了出来,那么远远早于一个儿童或是成年人尝试学习这篇文章中讨论到的任务类型之前,这个因素就已经是活跃的、存在的了。这一点不会有错,无论这种早期表现出来的因素是儿童从经验中学习到的或者是天生就具有的。不仅如此,因素表现出来的时间越早,它就越有可能对于儿童后续发展和学习有根本性作用。

 

我们聚焦于两类发展中的起始软件。第一类是直觉性物理学:婴儿具有一种原始的物体观念,这让他们能够随着时间而跟踪物体轨迹、不去相信物理意义上不存在的移动轨迹。例如,婴儿知道即使时间变化,物体仍将始终存在。人无需在每个新任务中重新学习这些原则,因此学习速度非常快,并且能做出很准确的预测。第二类在早期发展中表现出来的软件是直觉性心理学:婴儿知道其他人有目标和信仰之类的精神状态(mental states),而这种了解极强地约束了他们的学习和预测方向。一个看着别人玩视频游戏的儿童能够推理出游戏中被操纵的虚拟角色有对应的现实中的操纵者,并且这个虚拟角色试图获得奖励、避免惩罚。这种推理迅速约束了其他推理,让这个儿童能推理出游戏中什么东西是好的、什么东西是不好的。这类推理进一步加快了学习新任务的速度。


我们的第二组因素聚焦于学习。我们将学习视为一种建立模型的形式,或者说通过为世界建立因果模型来解释观测到的数据。很重要的一点是,幼儿在直觉性物理学和直觉性心理学方面起初具备的核心能力就是建立世界的因果模型(causal models of the world)。学习的首要任务是拓展这些模型并让它们更为丰富,并在其他领域中建立起相似的具有结构化因果的直觉性理论——一些可能由于某些原因而没有让我们与生俱来的直觉性理论。

 

与机器学习领域中最先进的算法相比,人类的学习在丰富程度和效率上都是有所区别的。儿童有能力和欲望去探索观察次数不多的事件背后的因果关系、并使用这种知识来绕过数据缺乏问题。人们能够从非常有限的经验中学习到这些非常结构化的模型,这看起来似乎是自相矛盾的。与典型的神经网络不同,这些表征通常是符号式的、并且具有相关性,这意味着大脑不太可能只依赖于基于梯度的学习技巧——大脑需要努力解决模型建立和理论学习所结合的复合复杂度。我们认为组合性和学习如何学习的方法是使得这种快速模型学习成为可能的因素。



A. 部分结合 DCNN 和通过蒙特卡洛树搜索(MCTS)基于模型搜索的下围棋人工智能系统。B. 以当前局面为基准的搜索树,根据 MCTS 产生下一步,由 DCNN 评估。C. 最终结果用于更新搜索树。来源:论文/Adapted from Tian and Zhu (2015).

 

最后一组因素考虑的是我们大脑建立的丰富模型要如何实时应用到行动上。我们看到并行动的速度非常之快。人们能够在几分之一秒里感知到一个全新的场景或是一种全新的说话方式,这肯定是一个大部分前馈(feedforward)的过程。在机器视觉和语音系统中使用神经网络的主要动机之一是达到像大脑一样的响应速度。虽然神经网络通常的目标是模式识别而不是模型建立,我们将会讨论这些“与模型无关”的方法如何通过学习识别基于模型的推理中的模式、随后无需历经成本高昂的中介步骤而直接预测推理的输出结果,以此来加速感觉和认知领域中原本速度较慢的基于模型的推理。将“学习执行推理”的神经网络与建立丰富模型的学习机制相整合,为我们提供了一条充满潜力的途径来揭示人类的心智为何能将这个世界理解得如此好、如此快。

 

我们将会讨论在强化学习中如何将基于模型的方法和与模型无关的方法相整合——这是一个近期涌现出快速进展的领域。一旦学习到了一个任务的因果模型,人类就能运用这个模型来规划最大化未来回报的行动;如果用回报来衡量模型建立的成功程度,这就是基于模型的强化学习。然而,在复杂模型中进行规划很麻烦、速度也很慢,速度与准确率的权衡让实时控制无法偏向这种方法。相反,与模型无关的强化学习算法——比如目前运用深度强化学习的例子——能够支持快速控制,但是代价是缺乏弹性、降低了可能的准确率。我们将会回顾人类既竞争又合作地将基于模型的算法和与模型无关的算法相结合、而这些交互受到元认知过程的监督的证据。像人类一样的强化学习的精妙之处尚未在AI系统中得到实现,但是这是一个认知方法与工程方法的交融可能会带来极大潜力的领域。


2. 人工智能中的认知与神经启示


3. 制造类人机器人的难点


4. 人类智能的核心组成要素


5. 讨论


展望


6.1 深度学习有前景的研究方向


6.2 未来对于实际AI问题的应用


在这篇文章中,我们提出了一些搭建学习和思考方式更像人类的计算模型的要素。我们在文章偏后部分解释了这些原则,特别强调了降低需要的训练数据量以及加强向全新但相关的任务的迁移。我们也预见了这些因素会以什么样的方式为核心人工智能问题在实际应用上带来进展。在这里,我们提供了一些关于这些应用的推测:

 

1. 场景理解。深度学习不止步于物体识别,它在向着场景理解前行;最近一阵子聚焦于为图片生成自然语言描述的工作可以作为证明。但是目前的算法仍然更擅长识别物体而不是理解场景,它们通常能正确分辨出关键物体,但会弄错关键物体之间的因果关系(见图6)。我们认为,要获得真正的场景识别能力,组合性、因果性、直觉性物理学、以及直觉性心理学正扮演着越来越重要的角色。例如,想象一下一个混乱的车库工作间:螺丝起子和锤子挂在墙上,木块与工具摇摇晃晃地堆叠在工作台上,棚架材料和箱子构成了这幅场景。为了让一个自主化代理(agent)能够高效地在这样的场景中行驶并完成任务,它需要具有直觉性物理学的能力,能恰当地对稳定性和支持能力进行推理。这个场景的整体模型则需要将不同个体的物体模型根据关系进行组合。最后,因果性有助于在对于现有工具的识别(或者是对于新工具的学习)之外更具有理解工具用途的能力,使得能够以恰当的方式将不同的物体模型联系在一起(例如,用锤子将钉子敲打进墙面中,或是用锯木架架着一段正在被锯子锯开的横梁)。如果场景中包含人类的行动或是交互,不去思考他们的想法——特别是他们针对他们相信存在于场景中的其他物体和代理(agent)的目标和意图——就想要理解他们的行为,是一件近乎不可能的事。

 

2. 自主化代理和智能装置。机器人和个人助理(比如手机)无法被预先训练到所有他们可能遇到的概念。就像儿童学习新词汇的含义一样,一个智能并且具有适应性的系统应该有能力从在环境中自然遇到的少量的例子中学习新概念。通常的概念类型包括新的口语词汇(比如“Ban Ki-Moon”或是“Kofi Annan”之类的名字)、新的姿势(一种特别的握手方式、或者用拳头互相轻击)、以及新的活动,而一个像人类一样的系统将能从少量例子中学习识别和产生新例子。就像识别手写字母的系统一样,借助于背后隐含的因果过程和学习如何学习的方法,系统可能能够通过原先的基本动作(primitive actions)而快速学习到新概念。

 

3. 自动化驾驶。完美的自动化驾驶需要直觉性心理学。除了探测和避让行人之外,自动驾驶汽车可以通过推测行人的精神状态(mental states)——包括他们的信念(例如,他们觉得穿过马路是安全的吗?他们是否投入了注意力?)和欲望(例如,他们想要去哪里?他们想不想过马路?他们是在取回掉在街上的球吗?)——来更准确地预测他们的行为。相似地,道路上的其他司机在行为背后也有相似的复杂的精神状态(例如,他们想要变换车道吗?要超车?他们是在为了避让前方的危险而紧急转向吗?他们是否注意力分散了?)这类心理学推理,以及其他类型的基于模型的因果推理和物理学推理,有可能在具有挑战性的驾驶情境和全新的驾驶情景中具有特别高的价值,因为几乎没有相关的训练数据(例如,在不寻常的修路区中或是自然灾害情境下行驶)。

 

4. 创造性设计。创造力通常被认为是人类智力的巅峰:大厨设计新的菜肴,音乐家编写新的歌曲,建筑师设计新的建筑,企业家开展新的业务。虽然我们距离研发出能够解决这类任务的AI系统仍然很遥远,我们认为组合性和因果性对于达到这个目标来说至关重要。许多寻常可见的创造行为是组合性的,也就是说它们是对于耳熟能详的概念或想法进行了出人意料的组合。就像图1-4里展示的那样,新的汽车能够通过组合已有汽车的各个部分被创造出来,新的字母可以是风格相似的字母的各个部分的组合,熟悉的字母也能以新风格重构。在每个例子中,仅仅自由地对部分进行组合是不够的:组合性和学习如何学习的方法能够提供新想法的碎片,而因果性提供的是给予这些碎片连贯性和意义的胶水。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多