由全球最大中文IT社区CSDN与全球AI技术社区AICamp共同打造的千人技术盛会——2018 AI开发者大会将于10月25日-26日在北京举办。本次大会汇聚海内外顶尖AI专家,面向全球AI开发者和科技企业,旨在搭建国际间的AI技术交流与学习平台,探索AI技术的应用实践与发展方向。
欢迎加入“2018 AI开发者大会” 早鸟交流群,添加小助手csdnai,备注“大会”
作者 | Jian Zhang
编译 | Sanglei, Shengsheng 来源 | 专知(公众号ID:Quan_Zhuanzhi)
【导读】一年一度的国际机器学习会议( ICML ),于7月15日在瑞典斯德哥尔摩闭幕,ICML 的会议日程之紧凑,会议内容之丰富,令人目不暇接。今年从2,473份提交论文中接收了621篇,其中有63余篇强化学习相关论文,作者将这些论文分成了多个类别,并对每篇文章的核心贡献做了精炼的总结,这些文章也是追踪强化学习最前沿技术的绝佳材料,精炼的总结也也便于我们快速查找与自己研究相关的文章。
会议概述
从2,473份提交论文中接收了621份,论文接受率为25.1%。
有关增强学习的会议占据了最大的会议室,而且论文数量也是最多的,这篇综述将主要总结增强学习的录用论文。
强化学习分类
我将接受的所有RL论文分类为以下主题:
强化学习理论(Theory)--- 8篇 强化学习网络(Network)---3篇 强化学习算法(Algorithms)6篇 强化学习优化(Optimization)8篇 强化学习探索(Exploration)4篇 强化学习激励(Reward) 4篇 基于模型的强化学习(Model-based)5篇 分布式强化学习(Distributed)3篇 层次强化学习(Hierarchical)5篇 多智能体(Multi-agent)6篇 元学习(Meta-learning)迁移(Transfer)终身学习(Lifelong Learning) 5篇 应用及其它(Applications)6篇
▌1. RL Theory
▌2. RL Network
▌3. RL Algorithms
▌4. RL Optimization
▌5. RL Exploration
▌6. RL Reward
▌7. Model-based RL
▌8. Distributed RL
▌9. Hierarchical RL
▌10. Multi-Agent
▌11. RL Meta-learning, Transfer, Continuing and Lifelong Learning
▌12. RL Applications and others
Can Deep ReinforcementLearning Solve Erdos- Selfridge-Spencer Games?->介绍了一个有趣的双人零和游戏系列,具有可调的复杂性,称为Erdos-Selfridge-Spencer游戏,作为RL的一个新域。作者报告了大量的实证结果,使用了各种各样的训练方法,包括监督学习和多种RL (PPO, A2C,DQN)以及 单代理 与多代理训练。
总结
附最佳论文总结
▌两篇最佳论文(best papers)
1.“Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples” [注]:也就是这篇在年初曾引起轩然大波,一作Anish Athalye质疑ICLR2018中的7/8篇对抗防御的论文太渣,并引起Goodfellow围追堵截要说法。Anish Athalye这篇打脸ICLR的文章在ICML上证明了自己的实力。 相关阅读: https://zhuanlan.zhihu.com/p/33554466
混淆梯度, 是一种梯度掩蔽,在防御对抗的例子中导致一种错误的安全感。 ICLR 2018的白盒安全防御系统,9种当中的7种防御系统依赖于混淆梯度。 对于发现的三种类型的混淆梯度中的每一种,作者都开发了攻击技术来克服它。 在每篇论文所考虑的原始威胁模型中,新的攻击成功地完全绕过了6种,只有一个是部分绕过。
2.“DelayedImpact of Fair Machine Learning”
训练以尽量减少预测误差的机器学习系统, 往往会表现出基于种族和性别等敏感特征的歧视性行为。原因之一可能是由于数据中存在历史偏差。 这项工作使机器学习的决策与长期的社会福利目标保持一致。 下图显示了作者提出的结果模型, 以减轻机器学习算法的不良社会影响。 依赖于群体的阈值可能面临法律挑战,不可避免的是,它们错失了固定阈值决策可能引发的差异结果。 公平约束(Fairnessconstraints)使群体之间的决策相等,以保护弱势群体。但是,公平约束也会减少已经处于不利地位的人群的福利。 构建一个精确的模型来预测决策对人口结果的影响,可能有助于减轻应用公平约束(fairness constraints)的潜在危害。
▌三篇最佳论文提名奖(Best Papers Runner-ups)
1. “The Mechanics of n-Player Differentiable Games”
开发新的技术来理解和控制一般游戏的动力学,例如GAN 关键的结果是将二阶动力学分解为两个分量: 第一个是与潜在的游戏有关,它会降低隐函数的梯度下降; 第二个与哈密顿博弈(Hamiltonian games)有关,哈密顿博弈是一种遵守守恒定律的新游戏,类似于经典机械系统中的守恒定律。 分解激发了Symplecti梯度调整(SGA),这是一种新的算法,用于在一般游戏中寻找稳定的定点。 基本实验表明,SGA与最近提出的在GANs中找到稳定的固定点的算法相比是有竞争力的,同时在更多普通的游戏中也适用,并且有保证。
2. “Near Optimal Frequent Directions for Sketching Dense and SparseMatrices”
复旦大学的论文Near Optimal Frequent Directions forSketching Dense and Sparse Matrices十分引人注目,这篇斩获“最佳提名奖”的论文由大数据学院副教授黄增峰独立完成,研究的是流模型(streaming model)中的协方差情况。文章提出了一种新型空间优化算法,把流模型运行时间缩短到极致。 计算一个比给定的大矩阵小得多的草图矩阵,使协方差误差最小化。 我们考虑了流模型中存在的问题,该算法在有限的工作空间下只能对输入进行一次传递。 Liberty(2013)及其变体的Frequent Directions算法实现了最佳的空间误差权衡。 但是,是否可以改善运行时间仍然是一个悬而未决的问题。 在本文中,我们几乎解决了这个问题的时间复杂度。 特别是,我们提供新的空间优化算法,运行时间更短。 此外,我们还证明了算法的运行时间几乎是最优的,除非矩阵乘法的最先进的运行时间可以显著提高。
3. “Fairness Without Demographics in Repeated Loss Minimization”
最小化平均损失导致表示差异 - 少数群体(例如,非母语人士)对训练目标贡献较少,因此往往遭受更大的损失。由于模型的准确性会影响用户保留率,少数群体的数目会随着时间的推移而缩小。 作者指出,经验风险最小化(ERM)随着时间的推移会扩大表征差异,这甚至会使最初的公平模型变得不公平。 开发一种基于分布鲁棒优化(DRO)的方法,该方法将经验分布附近所有分布的最坏情况风险最小化。 演示了DRO在ERM失败的示例上防止差异放大,并展示了在真实文本自动完成任务中少数群体用户满意度的改进。
原文链接: https:///@jianzhang_23841/a-comprehensive-summary-and-categorization-on-reinforcement-learning-papers-at-icml-2018-787f899b14cb
|