分享

DeepMind的MuZero是有史以来最重要的深度学习系统

 新用户8719ag3P 2022-01-06

  MuZero采用独特的方法来解决深度学习模型中的计划问题。

  DeepMind的MuZero是有史以来最重要的深度学习系统

  "我已经看到了人工智能(AI)的未来,它被称为MuZero"。这些是我的一位导师在他阅读DeepMind在2021年发布的有关MuZero的第一篇初步研究论文时使用的词语。一个单一的深度学习模型可以掌握Atary,Go,Chess或Shogi等游戏,甚至不知道规则。这似乎是科幻书中的东西。好吧,这就是DeepMind在几周前发表在《自然》杂志上的一篇新研究论文中所描述的MuZero的本质。

  从概念上讲,MuyZero提出了针对深度学习领域最艰巨挑战之一的解决方案:规划。从机器学习的早期开始,研究人员就研究了既可以在给定环境下有效学习模型,又可以规划最佳操作方案的技术。考虑一下自动驾驶汽车或股市情况,在这种情况下环境规则不断变化。通常,这些环境给深度学习模型的规划带来了极大的挑战。在较高级别上,与深度神经网络规划有关的大多数工作都属于以下类别:

  1)前瞻性搜索系统:这种类型的系统依赖于环境知识进行规划。AlphaZero是该组模型中的突出示例。但是,将前瞻搜索技术应用于杂乱无章的环境时,仍然很困难。

  2)基于模型的系统:这种类型的系统尝试学习环境的表示形式以便进行规划。诸如Agent57之类的系统已经在该领域取得了成功,但实施起来可能会非常昂贵。

  MuZero结合了两种方法的思想,但是使用了非常简单的原理。MuZero并没有尝试对整个环境进行建模,而是只专注于可以推动最有用的规划决策的最重要方面。具体来说,MuZero将问题分解为对计划至关重要的三个要素:

  1)价值:当前头寸好吗?

  2)政策:最好采取哪种行动?

  3)奖励:上一个动作的效果如何?

  例如,使用游戏中的给定位置,MuZero使用表示函数H将观察结果映射到模型使用的输入嵌入。计划的动作由动态函数G和预测函数F描述。

  DeepMind的MuZero是有史以来最重要的深度学习系统

  收集的经验用于训练神经网络。重要的是要注意,体验既包括观察和奖励,也包括搜索结果。

  DeepMind的MuZero是有史以来最重要的深度学习系统

  DeepMind使用这个简单的想法就可以将MuZero演变成一个模型,该模型可以在从国际象棋到Atari的复杂计划问题中实现超人的性能。在所有基准测试中,MuZero均优于最新的强化学习算法。

  在未来的几年中,诸如MuZero之类的方法对深度学习计划的影响可能会很重要。当然,我们应该关注DeepMind在该领域下一步要做的事情。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多