【原】AlphaGo之父DeepMind不务正业？围棋独孤求败之后沉迷游戏

RoboSpeak 2020-12-23

展开全文

今年五月DeepMind战胜柯洁之后，便宣布退出了围棋界。两个月以来一直销声匿迹，人们也都非常关心DeepMind将会在哪一方面有更突出的表现。早前DeepMind团队连发三篇论文，向我们展示了他们的行踪，原来他们在训练DeepMind玩游戏。

动图中的无头步行者在以独特的方式行走

这是一个训练腿足式模型行走的游戏，DeepMind团队应运深度学习分别训练了无头步行者、四足蚂蚁、和人体模型完成相应的动作，意在训练人工智能通过自身学习实现稳定行走。其发布的三篇论文的侧重点分别为：

1
丰富环境中移动行为的出现

关于DeepMind下围棋时，机器人大讲堂就说过一个笑话，虽然它可以战胜围棋世界第一的柯洁，却连一个棋子都拿不动。现在看来它不仅拿不动棋子也不会走路。腿足机器人的行走目前来讲是一个世界性的难题，少数能实现稳定行走的机器人，也大多停留在实验室阶段。DeepMind意识到这一点，让机器人实现行走能力至关重要。

但如何教会人工智能实现“走”或“跳”的动作，显然在吧这些运动技能教授给人工系统时，不像围棋的数学运算，是一个很难描述的复杂行为。所以他们通过深度学习训练了不同的模型自己学会在不同地形上进行跳跃、转弯或者蹲伏的动作。

在完成如上动作时，系统只告诉模型向前移动而不下降，并不会告诉它具体的行动方案。当AI完成想要的效果时就给予算法意义上的奖励，这样深度学习后AI便实现了动图中高质量的运动技能。

2
从动态捕捉中学习模仿人类行为

DeepMind的第二篇论文，阐述了如何通过运动捕捉数据来构建一个模仿人类行为的政策网络。AI通过对人类行走、起立、跑步、转弯等特定动作进行与学习。一旦AI输出的动作更接近人类时，DeepMind团队就会调整并重新利用这些动作来解决其他任务，如爬楼梯、在密封走廊内行走等。

模仿人类的行走行为

DeepMind的神奇之处是它可以在大量的学习之后，形成自己的感觉。其团队的第三篇论文提出了构建一种最先进的生成模型的神经网络结构，他能学习不同行为之间的关系，并模仿他所显示的具体动作。经过训练之后，DeepMind可以编码观察到的动作，并创建新的小动作完成不同动作之间的切换。

此外，DeepMind 还使用深度学习技术，教会AI完成一条跑酷路线。他们设计了一系列的跑酷路线，有落崖，有障碍，还有墙壁，每一次完成关卡都会赢得系统奖励。基本规则如下：最快突破障碍物的 AI 模拟机体将得到最大的奖励，更加复杂的项目将会得到额外的奖励和惩罚。

3
意义

正如AlphaGo的目的并不是为了战胜人类，DeepMind团队的这三篇论文这不是为了论证他们的AI游戏玩的有多好。显然上述动图中，腿足模型的行走模式还并不成熟，甚至有点滑稽，但目前很多领域都开始研究如何控制这种模拟人，包括计算机动画和生物力学领域。他们的目的上，让AI在模型中完成对腿足机器人宏观控制的把把握，一旦模型成熟，将这样的人工智能应用到复杂腿足机器人的电机控制中，其必将对现实中腿足机器人的运行稳定性带来突破性的进展。