【原】DeepMind的MuZero是有史以来最重要的深度学习系统

新用户8719ag3P 2022-01-06

展开全文

　　MuZero采用独特的方法来解决深度学习模型中的计划问题。

　　 DeepMind的MuZero是有史以来最重要的深度学习系统

　　"我已经看到了人工智能（AI）的未来，它被称为MuZero"。这些是我的一位导师在他阅读DeepMind在2021年发布的有关MuZero的第一篇初步研究论文时使用的词语。一个单一的深度学习模型可以掌握Atary，Go，Chess或Shogi等游戏，甚至不知道规则。这似乎是科幻书中的东西。好吧，这就是DeepMind在几周前发表在《自然》杂志上的一篇新研究论文中所描述的MuZero的本质。

　　从概念上讲，MuyZero提出了针对深度学习领域最艰巨挑战之一的解决方案：规划。从机器学习的早期开始，研究人员就研究了既可以在给定环境下有效学习模型，又可以规划最佳操作方案的技术。考虑一下自动驾驶汽车或股市情况，在这种情况下环境规则不断变化。通常，这些环境给深度学习模型的规划带来了极大的挑战。在较高级别上，与深度神经网络规划有关的大多数工作都属于以下类别：

　　1）前瞻性搜索系统：这种类型的系统依赖于环境知识进行规划。AlphaZero是该组模型中的突出示例。但是，将前瞻搜索技术应用于杂乱无章的环境时，仍然很困难。

　　2）基于模型的系统：这种类型的系统尝试学习环境的表示形式以便进行规划。诸如Agent57之类的系统已经在该领域取得了成功，但实施起来可能会非常昂贵。

　　MuZero结合了两种方法的思想，但是使用了非常简单的原理。MuZero并没有尝试对整个环境进行建模，而是只专注于可以推动最有用的规划决策的最重要方面。具体来说，MuZero将问题分解为对计划至关重要的三个要素：

　　1）价值：当前头寸好吗？

　　2）政策：最好采取哪种行动？

　　3）奖励：上一个动作的效果如何？

　　例如，使用游戏中的给定位置，MuZero使用表示函数H将观察结果映射到模型使用的输入嵌入。计划的动作由动态函数G和预测函数F描述。

　　 DeepMind的MuZero是有史以来最重要的深度学习系统