分享

莫斯科国立大学56页《深度强化学习综述》最新论文,带你全面了解DRL最新方法

 LibraryPKU 2019-07-02

【导读】深度强化学习是强化学习和深度学习的结合。这一领域的研究已经能够解决广泛的复杂的决策任务,这是以前无法达到的。因此,DeepRL在各个顶级会议上都有很多相关工作,在医疗保健、机器人技术、智能电网、金融等领域开辟了许多新的应用。近期莫斯科国立大学强化学习专家Sergey Ivanov博士等人近期发布了《Modern Deep Reinforcement Learning Algorithms》,这篇综述论文对当前深度强化学习相关方法进行了广泛的回顾,对最新的DRL算法进行了综述,重点介绍了它们的理论依据、实际局限性和观察到的经验特性。

题目:Modern Deep Reinforcement Learning Algorithms

作者:

Written by: Sergey Ivanov

Scienti1c advisor: Alexander D' yakonov.

【摘要】近年来,基于将经典理论成果与深度学习范式相结合的强化学习研究取得了新的进展,在许多人工智能任务中都取得了突破,并催生了深度强化学习(Deep Reinforcement Learning ,DRL)作为研究的一个领域。本文对最新的DRL算法进行了综述,重点介绍了它们的理论依据、实际局限性和观察到的经验特性。

参考链接:

https:///abs/1906.10025

 请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“深度强化学习综述2019” 就可以获取最新论文的下载链接~ 

引言

在过去的几年里,深度强化学习被证明是一种有效的方法来解决许多不同领域的人工智能任务。突破性的成就包括在Go[20]、multiplayer Dota[14]和即时战略星际争霸II[24]等复杂游戏中达到人类水平的表现。DRL框架的通用性使得它可以应用于离散和连续领域,以解决机器人和模拟环境中的任务[12]。

经典的强化学习研究在上个世纪的最后三分之一世纪为现代算法的发展奠定了广泛的理论基础。自那时起,已有几种算法,当环境状态可以枚举(并存储在内存中)或最优策略可以在状态表示特征的线性或二次函数空间中搜索时,这些算法能够解决小规模问题。虽然这些限制极为有限,但经典RL理论的基础是现代方法的基础。这些理论基础将在3.1和5.1-5.2节中讨论。

将该框架与深度学习[5]相结合,通过在[13]中引入的深度Q-Learning算法推广,该算法可以在不调整网络架构或算法超参数的情况下来玩Atari的57款游戏机中的任何一款。这种新方法在随后的几年里得到了广泛的研究和显著的改进。第3节给出了深度强化学习中基于价值的指导原则。

在最近的基于价值的DRL研究中,一个关键的思想是在[1]中提出的分布式方法。它进一步扩展了经典的理论基础,并引入了实用的DRL算法,催生了分布式强化学习范式,目前正积极研究这种范式的潜力。第4节描述了它的主要思想。

DRL研究的第二个主要方向是policy gradient方法,它试图直接优化目标函数,明确地体现在问题设置中。它们在神经网络中的应用涉及一系列特殊的障碍,需要专门的优化技术。由于其巨大的并行化潜力和持续的领域适用性,它们在深度强化学习中代表了一种具有竞争力和可扩展性的方法。第5节讨论了policy gradient方法。

尽管取得了广泛的成功,但目前最先进的DRL方法仍然面临着许多严重的缺陷。由于神经网络的训练需要大量的数据,DRL在数据生成昂贵的环境中显示出不尽如人意的结果。即使在交互几乎是free的情况下(例如在模拟环境中),DRL算法往往需要过多的迭代,这就增加了它们的计算和时间成本。此外,DRL具有随机初始化和超参数敏感性,其优化过程是不稳定的[9]。尤其令人尴尬的是,这些DRL特征的结果被证明是低复现性,它们来自不同研究小组的经验观察[6]。在第6节中,我们尝试在几个标准的测试环境中启动最先进的DRL算法,并讨论其应用的实际细微差别。

目录

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多