DeepMind 拟通过游戏来训练AI

天承办公室 2021-08-19

展开全文

去年，DeepMind 研究人员写道，未来的人工智能开发人员可能会花更少的时间来编程算法，而将更多的时间用于生成丰富的虚拟世界来训练它们。

在本周在预印本服务器 arXiv 上次发布的一篇新论文中，他们似乎非常认真地对待该预测的后半部分。

该论文的作者表示，他们为 AI 创建了一个充满挑战的虚拟游乐场。这个名为 XLand 的世界是一个充满活力的视频游戏，由人工智能霸主管理，并由必须学习导航技能的算法填充。

游戏管理 AI 密切关注游戏算法正在学习的内容，并自动生成新的世界、游戏和任务，以不断面对新体验。

该团队表示，一些资深算法师在 4,000 个 XLand 世界中玩约 700,000 场游戏时面临 340 万个独特任务。但最值得注意的是，他们开发了一套通用技能，与任何一款游戏无关，但对所有游戏都有用。

这些技能包括实验、简单的工具使用以及与其他玩家的合作。掌握通用技能，算法在面对新游戏时表现良好，包括更复杂的游戏，例如夺旗、捉迷藏和标签。

这是朝着解决深度学习中的主要挑战迈出的一步。大多数经过训练以完成特定任务的算法——比如在 DeepMind 的案例中，在围棋或星际争霸等游戏中获胜——都是学者。他们在他们知道的一项任务上是超人的，而在其他任务上却毫无用处。他们可以在围棋或国际象棋中击败世界冠军，但必须从头开始重新训练才能做其他任何事情。

DeepMind 表示，通过向深度强化学习算法展示一个开放式、不断变化的世界供学习，他们的算法开始在新的前所未见的任务中展示“零样本”学习。也就是说，他们不需要再培训就可以在体面的水平上执行新任务——看不见的。

一个 AI 玩家通过敲打东西来进行实验，最终找到了一个有用的工具——通往目标的斜坡

这是朝着更通用的算法迈出的一步，这些算法可以在同样无限新颖的现实世界中进行交互、导航和解决问题。

但 XLand 并不是人工智能社区最近对泛化的第一个暗示。

OpenAI 的 GPT-3 可以生成不可思议的书面段落——它的主要目的——但它也可以做其他事情，比如简单的算术和编程。只需几个示例即可对其进行微调。（OpenAI 说 GPT-3 展示了“小样本”学习。）

去年，DeepMind 自己开发了一种算法，该算法编写了自己代码的关键部分，称为价值函数，通过投射奖励来指导其行动。令人惊讶的是，在非常简单的“玩具世界”中接受训练后，该算法继续以超人的水平玩 14 款它从未遇到过的 Atari 游戏，其性能有时与人类设计的 AI 不相上下。

值得注意的是，算法训练的“玩具世界”越多，它的泛化能力就越好。当时，该团队推测，如果有足够多的精心设计的训练世界，该方法可能会产生通用的强化学习算法。

XLand 的开放式学习让我们在这条路上走得更远。然而，这条路能走多远是一个开放且激烈争论的问题。

在这里，算法在一个相对简单的世界中玩相当简单的游戏（尽管经过巧妙调整以保持新鲜感）。目前尚不清楚这些算法在更复杂的游戏上的表现如何，更不用说在整个世界中了。但如果 XLand 是一个概念验证，他们的发现可能表明越来越复杂的世界将产生越来越复杂的算法。

事实上，DeepMind 的研究人员最近将其置于地下，认为（至少在哲学上）强化学习——该组织最引人注目的成功背后的方法——是我们获得通用人工智能所需的一切。与此同时，OpenAI 和其他公司正在大规模进行无监督的深度学习，以实现高级自然语言处理和图像生成。

并非所有人都同意。有些人认为深度学习会碰壁，必须与其他方法配对，比如符号人工智能。但该领域的三位先驱——Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun——最近共同撰写了一篇论文，提出了相反的观点。他们承认深度学习的缺点，包括缺乏灵活性和效率低下，但相信它可以在不求助于其他学科的情况下克服挑战。

撇开哲学争论不谈，狭义的人工智能已经产生了巨大的影响。

DeepMind 最近展示了它的AlphaFold 算法，它可以预测蛋白质的形状。该组织刚刚发布了 350,000 种蛋白质的预测形状，几乎包括人体中的所有蛋白质。他们说还有1亿正在路上。

从这个角度来看，科学家们几十年来已经研究出大约 180,000 种蛋白质的结构。DeepMind 的蛋白质下降一举使计数几乎翻了一番。新创建的蛋白质库尚未得到科学家的严格证实，但对他们来说将是一个有价值的工具。他们将有一个模板（可能更多）来工作，而不是从一张白纸开始。

无论对通用人工智能的追求如何，似乎仍有足够的空间供其更专业的先驱者使用。

更多人工智能相关知识，请搜索“众壹云”