OpenAI发布人工智能新算法，糅合VR技术“教”会机器人自主学习

高占国 2017-05-20

展开全文

众所周知，“钢铁侠”马斯克在涉猎了互联网、新能源、航天、管道交通等科技领域之后，始终没有停下探索的脚步，而在当下大热的人工智能领域自然也是少不了他的身影。2015年他联合Y Combinator总裁阿尔特曼、天使投资人彼得·蒂尔（Peter Thiel）等硅谷巨头投资10亿美元成立人工智能非营利组织OpenAI。主要的目的就是希望能够预防由人工智能技术的发展所引发的灾难，努力推动人工智能向健康积极的方向发展。

就在昨天，OpenAI向外界发布了其具有里程碑意义的一项研究——单次模仿学习算法（one-shot imitation learning）。据悉，这种算法的绝妙之处在于允许人们使用虚拟现实工具来向人工智能传达任务指令，操作者只需要进行一次动作演示，之后人工智能就可以参照人类的动作进行模仿学习。

而这也已经不是OpenAI第一次推出人工智能相关的技术了。在2016年12月，OpenAI推出了一个开源平台Universe，基于这个平台，用户可以使利用游戏、网络浏览器和各种软件来训练人工智能。通过这种方法，AI系统将会变得更加智能，可以像人类一样操作计算机，解决我们所遇到的一切问题，而Universe的角色就成了AI系统训练平台。

图丨Universe训练AI所用的游戏

本周，OpenAI又推出了用于机器人仿真的开源软件Roboschool，它基于增强学习研究平台OpenAI Gym而开发的，提供了十几个新的操作环境，让用户可以在模拟环境中训练一个或多个机器人。

图丨Roboschool的训练画面

不过，相较以往，单次模仿学习算法的进步之处在于不需要人类操作者将动作反复重复，只要一次就足够人工智能来“领悟学习”。为了验证这一算法的可靠性，OpenAI进行了立方块堆叠的实验。

在实验中，OpenAI尝试“教”机械臂按顺序堆叠一批彩色的立方块，那么佩戴着VR设备的操作者就会首先在虚拟现实的环境中手动完成这一任务。然后，OpenAI就会使用其为机械臂专门开发的“眼睛”——视觉网络来仔细观察每一个动作。值得一提的是，视觉网络是一种基于成千上万个模拟图像而训练出来的神经网络，它是OpenAI早先很重要的一个研究项目，重点就是要用不断变化的模拟数据来强化对人工智能的训练。

图丨OpenAI的完整演示视频

但到这里，大家可能会有一个疑问，那就是为什么OpenAI没有选取现实世界中的照片或影像来供人工智能进行学习呢？毕竟这么做可以令机器人更直接的适应现实中的应用需要。其实，OpenAI的研究人员在这方面也是有所考量的。

首先，收集真实世界中的图像不仅费时费力，而且花费的成本也将是天文数字。反观模拟数据，可以更快、更有效率的达到相同的学习效果。也正因此，OpenAI为最新的人工智能算法提供的都是有着不同风格背景和纹理的虚拟图像。

另外很重要的一点，相较于真实世界的图像，人工智能算法在对虚拟图像进行分析的时候可以不用考虑现实场景的因素，可直接对机器人观察到的虚拟图像进行识别。

图丨OpenAI使用的虚拟图像

接下来，OpenAI的算法会将从视觉网络中收集到的信息传送给第二层神经网络——仿真网络，并以此来指导机械臂的动作。仿真网络的作用是分析出每一个动作背后的真实含义，并将其推广到新的应用场景中。那么它是怎么实现的呢？

仿真网络会从几十个不同的任务中得到训练，而每个不同的任务又都会包括上千次的示范演示。每次训练，仿真网络都可以观察到两个演示案例，所不同的是，仿真网络可以全方位的反复观摩第一个演示案例，但第二个演示案例仅会被展示一次。在这之后，研究人员就会使用监督学习来预测演示者下一步会采取什么样的行动。所以，很显然机器人必须要从第一次展示中了解到大量的相关信息才能有效的预测下一步的行动。

而在立方块堆叠的应用案例中，该算法的训练目标就是要将不同摆放方式的立方块按相同的顺序搭成同样的“方块塔”。