雨夜的博客 / 技术文章 / 使用离散世界模型掌握 Atari

分享

   

使用离散世界模型掌握 Atari

2021-09-18  雨夜的博客

深度强化学习 (RL) 使人工代理能够随着时间的推移改进他们的决策。传统的无模型方法通过大量试错与环境交互来了解哪些动作在不同情况下是成功的。相比之下,深度强化学习的最新进展使基于模型的方法能够从图像输入中学习准确的世界模型并将其用于规划。世界模型可以从更少的交互中学习,促进离线数据的泛化,实现前瞻性探索,并允许跨多个任务重用知识。

尽管有很多有趣的好处,但现有的世界模型(例如SimPLe)还不够准确,无法在最具竞争力的强化学习基准测试中与顶级的无模型方法竞争——迄今为止,完善的Atari 基准需要无模型算法,例如DQN、IQN和Rainbow,以达到人类水平的表现。因此,许多研究人员转而专注于开发特定于任务的规划方法,例如VPN和MuZero,它通过预测预期任务奖励的总和来学习。然而,这些方法特定于单个任务,目前尚不清楚它们将如何泛化到新任务或从无监督数据集中学习。类似于最近计算机视觉中无监督表示学习的突破 [ 1 , 2 ],世界模型旨在学习环境中比任何特定任务更通用的模式,以便以后更有效地解决任务。

今天,我们与DeepMind 和多伦多大学合作,推出DreamerV2,这是第一个基于世界模型的 RL 代理,可在 Atari 基准测试中实现人类级别的性能。它构成了Dreamer 代理的第二代,它纯粹在从像素训练的世界模型的潜在空间内学习行为。DreamerV2 完全依赖图像中的一般信息,即使其表示不受这些奖励的影响,也能准确预测未来的任务奖励。使用单个 GPU,DreamerV2 在计算和样本预算相同的情况下优于顶级无模型算法。 file

file

DreamerV2 为 55 款 Atari 游戏中的一些游戏学习的行为。这些视频显示了来自环境的图像。下面的博客文章中显示了视频预测。

世界的抽象模型

就像它的前身一样,DreamerV2 学习世界模型,并使用它完全根据预测的轨迹来训练演员-评论家的行为。世界模型自动学习计算其图像的紧凑表示,这些表示发现有用的概念,例如对象位置,并学习这些概念如何响应不同的动作而变化。这让代理生成其图像的抽象,忽略不相关的细节,并在单个 GPU 上实现大规模并行预测。在 2 亿个环境步骤中,DreamerV2 预测了 4680 亿个紧凑状态以学习其行为。

DreamerV2建立在我们推出了针对复发状态空间模型(RSSM)沛和也用于DreamerV1。在训练期间,编码器将每个图像转换为随机表示,并纳入世界模型的循环状态。由于表示是随机的,因此它们无法访问有关图像的完美信息,而是仅提取进行预测所需的信息,从而使代理对看不见的图像具有鲁棒性。从每个状态,解码器重建相应的图像以学习一般表示。此外,还训练了一个小型奖励网络,以在计划期间对结果进行排名。为了在不生成图像的情况下进行规划,预测器 学习猜测随机表示,而无需访问计算它们的图像。 file

重要的是,DreamerV2 向 RSSM 引入了两种新技术,可以为学习成功策略提供更加准确的世界模型。第一种技术是表示与多个的各图像分类变量在文献[而不是由行星,DreamerV1使用高斯变量,并且有更多的世界模型1,2,3,4,5 ]。这导致世界模型根据离散概念对世界进行推理,并能够更准确地预测未来的表示。

编码器将每个图像转换为 32 个分布,每个分布超过 32 个类别,其含义在世界模型学习时自动确定。从这些分布中采样的one-hot 向量被连接到一个稀疏表示,该表示被传递到循环状态。为了通过样本进行反向传播,我们使用直通梯度使用自动微分很容易实现。用分类变量表示图像允许预测器准确地学习可能的下一张图像的 one-hot 向量的分布。相比之下,使用高斯预测器的早期世界模型无法准确匹配可能的下一张图像的多个高斯表示的分布。 file

DreamerV2的第二个新技术是KL平衡。许多以前的世界模型使用ELBO 目标这鼓励准确重建,同时保持随机表示(后验)接近其预测(先验),以规范从每张图像中提取的信息量并促进泛化。由于目标是端到端优化的,因此可以通过将两者中的任何一个带到另一个来使随机表示及其预测更加相似。然而,当预测器尚不准确时,将表征带入其预测可能会出现问题。KL 平衡让预测更快地向表示移动,反之亦然。这会导致更准确的预测,这是成功规划的关键。 file

保持序列世界模型的长期视频预测。每个模型接收 5 帧作为输入(未显示),然后仅在给定动作的情况下预测前进 45 步。视频预测仅用于深入了解世界模型的质量。在规划期间,只预测紧凑的表示,而不是图像。

衡量 Atari 性能

DreamerV2 是第一个世界模型,它能够在成熟且具有竞争力的 Atari 基准测试中以人类水平的表现学习成功的行为。我们选择了之前许多研究有共同点的 55 款游戏,并推荐这组游戏用于未来的工作。遵循标准评估协议,代理允许使用 4 次动作重复和粘性动作进行 200M 环境交互(25% 的机会忽略一个动作并重复前一个动作)。我们与顶级无模型代理 IQN 和 Rainbow 以及在多巴胺框架中实现的著名C51和DQN代理进行比较。

对 55 场比赛的分数进行汇总存在不同的标准。理想情况下,新算法在所有条件下都会表现得更好。对于所有四种聚合方法,DreamerV2 在使用相同计算预算的情况下确实优于所有比较的无模型算法。 file

  • 玩家中位数。最常见的是,每场比赛的分数都通过对DQN 论文进行评估的人类游戏玩家的表现进行归一化,并报告所有游戏归一化分数的中位数。不幸的是,中位数忽略了许多更简单和更难游戏的分数。

  • 玩家的意思。平均值考虑了所有游戏的分数,但主要受人类玩家表现不佳的少数游戏的影响。这使得算法很容易在某些游戏(例如詹姆斯邦德、视频弹球)上获得较大的归一化分数,然后支配平均值。

  • 记录平均值。之前的工作建议基于人类世界记录进行标准化,但这样的指标仍然受到少数游戏的过度影响,在这些游戏中,人工代理很容易超过人类记录。

  • 剪切记录平均值。我们引入了一个新的度量标准,通过世界纪录对分数进行标准化,并将它们剪辑为不超过记录。这产生了一个信息丰富且稳健的指标,该指标将所有游戏的性能考虑到大致相等的数量。

尽管许多当前的算法超过了人类游戏玩家的基线,但它们仍远远落后于人类世界纪录。如上图最右侧的图表所示,DreamerV2 在游戏中平均达到了人类记录的 25%。削减记录线的分数让我们可以集中精力开发在所有比赛中更接近人类世界纪录的方法,而不是仅仅在几场比赛中超过它。

什么重要什么

不重要 为了深入了解 DreamerV2 的重要组成部分,我们进行了广泛的消融研究。重要的是,我们发现分类表示比高斯表示具有明显的优势,尽管高斯表示在先前的工作中已被广泛使用。与大多数生成模型使用的 KL 正则化器相比,KL 平衡提供了更大的优势。

通过防止图像重建或奖励预测梯度塑造模型状态,我们研究了它们对学习成功表示的重要性。我们发现 DreamerV2 完全依赖于来自高维输入图像的通用信息,即使它们没有使用有关奖励的信息进行训练,它的表示也可以实现准确的奖励预测。这反映了计算机视觉社区中无监督表示学习的成功。 file

DreamerV2 的各种消融的 Atari 性能(剪切记录平均值)。分类表示、KL 平衡和了解图像对于 DreamerV2 的成功至关重要。使用特定于狭窄任务的奖励信息不会为学习世界模型提供额外的好处。

结论

我们展示了如何学习一个强大的世界模型,以在竞争激烈的 Atari 基准测试中达到人类水平的表现,并超越顶级的无模型代理。这一结果表明,世界模型是一种在强化学习问题上实现高性能的强大方法,可供从业者和研究人员使用。我们认为这表明计算机视觉中无监督表示学习的成功 [ 1 , 2 ] 现在开始以世界模型的形式在强化学习中实现。在 Github上提供了 DreamerV2 的非官方实现并为未来的研究项目提供了一个富有成效的起点。我们将利用大型离线数据集、长期记忆、分层规划和定向探索的世界模型视为未来研究的令人兴奋的途径。

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多

    ×
    ×

    ¥.00

    微信或支付宝扫码支付:

    开通即同意《个图VIP服务协议》

    全部>>