【原】【第二期】20篇强化学习论文总结（附下载链接）

学术头条 2020-11-27

展开全文

前段时间，我们为大家整理了105篇强化学习论文的综述及列表（点击获取）。

为了方便大家学习，我们将会出5期强化学习的论文总结，每期会有20篇左右的论文，在每周一发布，敬请关注。

目前已出了【第一期】20篇强化学习论文总结（附下载链接）

本期内容如下：

21.Designing neural network architectures using reinforcement learning

来源：ICLR’17

总结:

本文介绍了一个自动设计CNN结构的算法MetaQNN。CNN通常是一个多层的神经网络结构，包括一系列的卷积层，池化层，全连接层等。设计一个效果良好的CNN 模型需要大量的手工调参和实验验证。作者将网络结构的设计过程形式化为马尔可夫决策过程，并定义了对应的状态空间，动作空间以及奖励函数。将问题形式化定义后，作者设计了一个基于Q-learning的算法逐层选择神经网络的参数，并使用 ϵ-greedy和经验回放（experience replay）两个策略加快算法的收敛速度。

下载链接：https://www./archive/designing-neural-network-architectures-using-reinforcement-learning/58d82fced649053542fd7299

22.Neural Architecture Search with Reinforcement Learningee search

来源：ICLR’17

总结:

本文介绍了一种基于强化学习的算法用于自动设计神经网络结构。作者使用RNN控制神经网络的结构。其作用是生成一个描述神经网络结构的字符串，字符串中的每个token分别表示神经网络中对应层的参数。生成字符串的过程可以看成一个马尔可夫决策过程，动作空间是候选token构成的空间，奖励信号是字符串对应的神经网络经过训练后得到的误差。作者使用Policy Gradient的方法更新RNN，可以让算法根据训练目标自动设计网络结构。

下载链接：https://www./archive/neural-architecture-search-with-reinforcement-learning/58d82fc8d649053542fd59b8

23.Task-Oriented Query Reformulation with Reinforcement Learning

来源：EMNLP’17

总结:

本文介绍了一个基于神经网络的查询重构（query reformulation）系统，帮助搜索引擎返回更多与查询相关的文档。作者使用强化学习的框架解决查询重构问题，其目标是训练一个可以根据搜索引擎的反馈学习如何对原始查询进行扩写的查询重构模型。扩写过程中候选的词语构成强化学习中的行动空间，搜索引擎返回结果的召回率作为学习的奖励信号，模型的训练过程使用了REINFORCE算法。

下载链接：https://www./archive/task-oriented-query-reformulation-with-reinforcement-learning/599c794a601a182cd262cbc0

24.Ask the Right Questions: Active Question Reformulation with Reinforcement Learning

来源：ICLR’18

总结:

本文将问答看做一个强化学习任务，主要思想是在用户和问答系统之间增加一个问题重构模块。该模块可以将用户问题改写成不同形式，这些改写后的问题可以通过问答系统得到多个答案，该模块再从这些答案中选择质量最高的回答返回给用户。问题重构模块的核心是一个类似机器翻译的sequence-to-sequence模型，该模型首先通过单语语料预训练，之后使用Policy Gradient进行强化学习的训练过程，目标是最大化问答系统得到最佳回答的奖励。

下载链接：https://www./archive/ask-the-right-questions-active-question-reformulation-with-reinforcement-learning/599c7953601a182cd2630e84

25.Go for a Walk and Arrive at the Answer: Reasoning over Paths in Knowledge Bases using Reinforcement Learning

来源：ICLR’18

总结:

本文提出了MINERVA算法解决知识图谱中的自动推理问题。MINERVA算法主要用于基于知识图谱的自动问答：给定三元组中的关系和其中一个实体，补全另一个实体。作者采用基于路径搜索的方法，从已知的实体节点出发，根据问题选择合适的路径到达答案节点。作者将问题形式化为一个部分可观察的马尔可夫决策过程，将观察序列和历史决策序列用基于LSTM的策略网络表示。LSTM的训练使用了Policy Gradient方法。

下载链接：https://www./archive/go-for-a-walk-and-arrive-at-the-answer-reasoning-over-paths-in-knowledge-bases-using-reinforcement-learning/5a4aef9e17c44a2190f7a660

26.Real-Time Bidding by Reinforcement Learning in Display Advertising

来源：WSDM’17

总结:

本文将强化学习应用到Real-Time Bidding（RTB）中。过去的方法将Bid决策看做一个静态优化过程，本文将RTB看做序列决策过程并形式化为强化学习问题。作者将市场和网络用户看作环境，定义了问题中的状态，动作，奖励等元素，使用强化学习的方法优化Bid策略。

下载链接：https://www./archive/real-time-bidding-by-reinforcement-learning-in-display-advertising/58d82fd2d649053542fd7539

27.Dynamic Scholarly Collaborator Recommendation via Competitive Multi-Agent Reinforcement Learning

来源：RecSys’17

总结：

本文提出了一个基于强化学习的合作者推荐算法。本文考虑了合作网络中作者之间的竞争关系，即一个作者同时接受多个作者的合作邀请的可能性很低。作者使用多智能体强化学习对合作网络中的竞争关系建模，使用Value Iteration算法学习强化学习中每个状态的值，状态值高的作者会优先推荐；另外作者还提出了竞争函数调整推荐列表以提高整体的推荐效果。

下载链接：https://dl./citation.cfm?id=3109914

28.DRN: A Deep Reinforcement Learning Framework for News Recommendation

来源：WWW’18

总结:

本文提出了一个基于强化学习的新闻推荐算法。新闻推荐场景中，新闻具有很强的时效性，用户兴趣也会动态变化，推荐算法不仅要考虑当前推荐的反馈，还需要考虑未来可能的影响；另外推荐时需要避免出现类似的内容。作者提出了基于DQN（Deep Q-learning Networks）的新闻推荐算法。DQN可以对新闻和用户的动态属性建模，并同时考虑当前和未来的回报。作者还使用了Dueling Bandit Gradient Descent方法进行有效的探索，避免推荐结果出现过多相似的内容。

下载链接：https://www./archive/drn-a-deep-reinforcement-learning-framework-for-news-recommendation/5aed148b17c44a4438154fae

29. Reinforcement Learning for Relation Classification from Noisy Data

来源：AAAI’18

总结:

现有的关系分类方法主要有两个局限性：无法进行sentece-level的关系分类；依赖远程监督（distant supervision）标注的数据，但标注数据中存在较大误差。本文介绍了一个sentence-level的关系分类算法。算法由两个部分组成，分别是“instance selector”和“relation classifier”。Instance selector用于选取质量高的句子作为relation classifier的训练数据，该过程可以看做一个强化学习问题。作者分别定义了Instance selector的动作空间，状态空间和奖励函数，并给出了基于Policy Gradient的优化方法。

下载链接：https://www./archive/reinforcement-learning-for-relation-classification-from-noisy-data/5b1642388fbcbf6e5a9b54be

30.Resource Management with Deep Reinforcement Learning

来源：HotNets’16

总结：

本文提出了一个基于强化学习的资源管理算法DeepRM。传统的资源管理算法通常是根据工作负载和环境设计的启发式算法。作者提出了DeepRM算法，将强化学习的方法用于资源管理算法，强化学习可以利用深度神经网络对复杂的系统环境和决策策略建模，并可以对难以通过BP优化的性能指标进行优化。文中介绍了如何将在线集群调度描述为强化学习问题，并使用REINFORCE算法优化。

下载链接：https://www./archive/resource-management-with-deep-reinforcement-learning/58437777ac44360f1083fb87

31.Model-Based Reinforcement Learning in Continuous Environments Using Real-Time Constrained Optimization

来源：AAAI’15

总结:

本文研究了连续环境中机器人控制任务中的强化学习问题。作者提出了一个用于连续环境的model-based强化学习方法。该方法结合了model-based强化学习和近似最优控制方法，可以处理环境有限制条件的情况。

下载链接：https://www./archive/model-based-reinforcement-learning-in-continuous-environments-using-real-time-constrained-optimization/555048d845ce0a409eb71f00

32. End-to-End Training of Deep Visuomotor Policies

来源：JMLR

总结：

机器人的感知系统和控制系统通常是分开训练的。本文提出了一个感知系统和控制系统的end-to-end训练的方法，将感知系统观察到的图像直接映射到控制策略。作者提出了guided policy seach算法训练整个系统。实验结果展示了end-to-end训练比两个系统分开训练取得了更好的效果。

下载链接：https://www./archive/end-to-end-training-of-deep-visuomotor-policies/5550411245ce0a409eb385fb

33. Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-policy Updates

来源：ICRA’17

总结：

本文提出了一个异步的NAF（normalized advantage functions）强化学习算法，可以从零开始学习复杂的机器控制任务，不需要用户提供演示。同时，作者使用的模型中只用了通用的神经网络表示，不需要任务相关的领域知识。作者还提出了一些使用的扩展，保证在物理环境中能够与安全有效地进行强化学习。

下载链接：https://www./archive/deep-reinforcement-learning-for-robotic-manipulation-with-asynchronous-off-policy-updates/599c7bf6601a182cd2777f05

34. Learning to Route

来源：HotNets’17

总结：

本文将强化学习应用到了网络路由优化中。过去的路由优化主要依赖人类专家的设计，作者尝试使用机器学习算法，利用历史观察到的流量情况设计一个数据驱动的路由配置方法。作者分别使用了监督学习和强化学习两种方式学习路由策略，其中强化学习的方式可以取得更好的效果。

下载链接：https://www./archive/learning-to-route/5a260c3517c44a4ba8a2549f

35.Learning Structured Representation for Text Classification via Reinforcement Learning

来源：AAAI’18

总结:

本文提出了一个基于深度学习的句子表示算法，可以针对任务学习句子的结构化表示。该算法算法不需要解析树或其他显示的结构化表示标注作为输入，而是通过训练数据自动效识别与任务相关的句子结构。作者使用强化学习的方法构建任务相关的句子结构表示，模型由三部分组成，分别是Policy Network （PNet），Structured Representation Model和Classification Network （CNet），PNet为句子产生一个动作序列，Structured Representation Model将动作序列转化为结构化表示，CNet提供奖励信号，模型参数可以使用Policy Gradient方法优化。

下载链接：https://www./archive/learning-structured-representation-for-text-classification-via-reinforcement-learning/5b1642388fbcbf6e5a9b5740

36.Generating Text with Deep Reinforcement Learning

来源：arXiv

总结:

本文介绍了如何使用DQN生成文本，用于改善sequence-to-sequence模型。该方法将decoder变为迭代过程，可以使decoder先处理简单的部分，再处理困难部分。文中介绍了如何将文本生成任务形式化为强化学习任务以及算法流程。实验中，作者提出的DQN Encoder效果好于LSTM decoder。

下载链接：https://www./archive/generating-text-with-deep-reinforcement-learning/56d84386dabfae2eee9b9dcc

37. A Deep Reinforced Model for Abstractive Summarization

来源：arXiv

总结：

本文介绍了使用强化学习生成文本摘要的方法。现有的方法主要基于注意力机制和encoder-decoder结构，这种方法在处理长文本是会出现重复或者不连贯的短语。为了解决这个问题，作者提出了intra-attention机制，并使用了监督学习和强化学习结合的混合训练方法，用于缓解监督学习可能产生的“exposure bias”问题。

下载链接：https://www./archive/a-deep-reinforced-model-for-abstractive-summarization/599c7965601a182cd2638cad

38.Experience-driven Networking: A Deep Reinforcement Learning based Approach

来源：INFOCOM’18

总结:

下载链接：https://www./archive/experience-driven-networking-a-deep-reinforcement-learning-based-approach/5a9cb65d17c44a376ffb8145

39. Coordinated Deep Reinforcement Learners for Trafﬁc Light Control

来源：NIPS’16 Workshop

总结:

本文将深度强化学习应用到了Traffic Engineering（TE）领域。作者将TE形式化为强化学习问题，使用基于DDPG的算法训练模型。作者还针对TE领域提出了TE-aware exploration和actor-critic-based prioritized experience replay进一步优化模型。

下载链接：http:///papers/vanderpol_oliehoek_nipsmalic2016.pdf

40.Playing FPS Games with Deep Reinforcement Learning

来源：AAAI’17

总结:

本文将深度强化学习应用在3D第一人称射击（FPS）游戏中。作者设计了一个DRQN（Deep Recurrent Q-Network）用于执行动作以及一个DQN用于移动。模型的训练过程结合了reward shaping，frame skip，sequential updates等技术，使得AI可以达到甚至超过人类玩家的水平。

下载链接：https://www./archive/playing-fps-games-with-deep-reinforcement-learning/58437722ac44360f1082ecd9

我们还会继续在每周一推出接下来的3期强化学习论文总结，感兴趣的小伙伴可以继续关注。

您可在后台回复“强化学习”获取105篇强化学习论文列表。