【原】评估基于视觉模型的强化学习中的设计权衡

雨夜的博客 2021-09-27

展开全文

无模型强化学习已在一系列领域得到成功证明，包括机器人、控制、玩游戏和自动驾驶汽车。这些系统通过简单的试错来学习，因此在解决给定任务之前需要进行大量尝试。相比之下，基于模型的强化学习(MBRL) 学习环境模型（通常称为世界模型或动力学模型），使代理能够预测潜在动作的结果，从而减少所需的环境交互量解决一个任务。

原则上，规划所必需的只是预测未来的奖励，然后可以用来选择近乎最优的未来行动。不过，最近许多方法，如梦想家，沛，和简单，还利用预测未来图像的训练信号。但是预测未来的图像真的有必要还是有帮助？有什么好处做视觉MBRL算法实际上是从派生还预测未来的图像？预测整个图像的计算和表示成本相当可观，因此了解这是否真的有用对于 MBRL 研究非常重要。

在“模型、像素和奖励：评估基于视觉模型的强化学习中的设计权衡”中，我们证明预测未来图像提供了巨大的好处，并且实际上是训练成功的视觉 MBRL 代理的关键因素。我们开发了一个新的开源库，称为World Models Library，它使我们能够严格评估各种世界模型设计，以确定图像预测对每个模型返回奖励的相对影响。

World Models Library

World Models Library 专为视觉 MBRL 训练和评估而设计，可以对每个设计决策对跨多个任务的大规模代理的最终性能的影响进行实证研究。该库引入了一个平台无关的视觉MBRL模拟环路和API来无缝地定义新的世界模型，规划者和任务或挑选，并从现有的目录，其中包括剂（例如，选沛），视频模式（例如，SV2P )，以及各种DeepMind Control任务和规划器，例如CEM和MPPI。

使用该库，开发人员可以研究 MBRL 中的变化因素（例如模型设计或表示空间）对代理在一组任务上的性能的影响。该库支持从头开始或在预先收集的一组轨迹上训练代理，以及在给定任务上评估预训练的代理。模型、规划算法和任务可以轻松混合并匹配到任何所需的组合。

为了为用户提供最大的灵活性，该库是使用NumPy接口构建的，该接口允许在TensorFlow、Pytorch或JAX 中实现不同的组件。请查看此 colab以进行快速介绍。

图像预测的影响

使用世界模型库，我们训练了多个具有不同图像预测级别的世界模型。所有这些模型都使用相同的输入（先前观察到的图像）来预测图像和奖励，但它们预测的图像百分比不同。随着代理预测的图像像素数量的增加，由真实奖励衡量的代理性能通常会提高。

file

有趣的是，奖励预测准确性和代理性能之间的相关性并不那么强，在某些情况下，更准确的奖励预测甚至会导致代理性能降低。同时，图像重建误差与代理的性能之间存在很强的相关性。

file

这种现象与探索直接相关，即当代理尝试更多风险和潜在回报更少的行动以收集有关环境中未知选项的更多信息时。这可以通过在离线设置中测试和比较模型来显示（即，从预先收集的数据集中学习策略，而不是在线RL，后者通过与环境交互来学习策略）。离线设置可确保没有探索，并且所有模型都在相同的数据上进行训练。我们观察到，更适合数据的模型通常在离线设置中表现更好，令人惊讶的是，这些模型可能与从头开始学习和探索时表现最佳的模型不同。

file