强化学习之旅，AI最热门的话题

taotao_2016 2020-05-05

展开全文

强化学习之旅，AI最热门的话题

> Images from Unsplash.

以及如何击败监督学习

人工智能AlphaGo成为全球顶级围棋选手。

Google的搜索引擎每天处理54亿次搜索，并且经过优化，可以为搜索创造最佳结果。

YouTube根据您当前的兴趣查找推荐视频的最佳字符串，以吸引您。

以下是什么共同点？

它们都是通过强化学习来完成的，强化学习是AI中最热门的话题。

本文将介绍强化学习-适用于机器学习，强化学习术语和类比，多带问题和解决方案，企业为何偏爱监督学习以及其在商业中的应用。

机器学习曾经分为两类-有监督的学习和无监督的学习。

监督学习是具有一组特征或预测变量x₀，x₁，…，xₙ和目标变量y的数据。通常，监督学习的目标是找到特征与目标之间的关系，也许是预测目标。这可用于诸如图像识别（图像像素为x且图像标签为y）或房屋价值估算（如浴室数量，床位为x且房屋价格为y）之类的任务中。

强化学习之旅，AI最热门的话题

无监督学习是仅具有一组特征x而没有目标变量y的数据。此数据通常用于诸如聚类（在多维空间内找到一组数据点）或异常检测（这是从数据中寻找异常值的过程）之类的任务。无监督学习可用于客户细分，用于为特定类型的客户量身定制内容或营销策略的业务策略，或用于欺诈检测（例如用于检测欺诈性信用卡交易）的应用。

强化学习之旅，AI最热门的话题

最近，第三个兄弟姐妹进入了机器学习社区：强化学习。机器学习的这一领域可以说是该领域三个领域中最适合企业应用的领域。由于商业和公司利益推动研究的速度比任何学术机构都快，因此强化学习的发展正在非常迅速地加速。

强化学习可以被视为训练狗的人的特技。由于狗不了解我们人类希望他们做什么，因此我们让他们尝试几种技巧，并在狗的反应正确的前提下给他们一种奖励。通过重复重复此过程，狗会学会以最大程度获得治疗机会的方式做出反应。这完全类似于人类教计算机执行某项操作（例如玩游戏）。这就是'强化'这个名字的来历—该模型具有反复强化的积极作用，因此最终几乎总是以某种方式获得回报。

用强化学习术语重新解释人与狗的类比：

· 狗是暴露于环境的媒介。

· 狗选择要进入的状态，可能是玩死，奔跑，跳跃等。

· 代理通过执行从一种状态变为另一种状态的动作来做出反应。

· 在采取行动上的改变之后，对坐席给予奖励或惩罚。

· 该策略是模型用来选择动作的策略，以寻找可优化奖励机会的反应。

换句话说，代理通过输入动作并接收新的状态和潜在的回报来与其环境进行交互。

强化学习之旅，AI最热门的话题

主体和环境在强化学习算法中起着核心作用。环境是代理人赖以生存并试图生存的世界。以下是我们正在创建的虚拟世界的正式定义：

· 状态。国家是对世界的完整描述。世界上没有任何信息被隐藏。它可以是位置，常数或动态值。这些状态记录在数组，矩阵或高阶张量中。

· 行动。动作基于环境-不同的环境导致基于代理的动作也不同。代理的一组有效动作记录在一个称为动作空间的空间中，通常数量有限。

· 环境。这是代理人生活和互动的地方。不同类型的环境具有不同的奖励和政策。

· 奖励和回报。奖励函数r（x）的连续跟踪可指导强化学习，优化算法。它的输出取决于当前的世界状态，最近的动作以及下一个世界状态。

· 策略：策略也称为代理的'头脑'或'思想'，是代理用来选择下一个操作的规则。

这五个概念构成了一个世界和个人对其的探索。在数学上，它用马尔可夫决策过程（MDP）表示，该过程由元组组成：

强化学习之旅，AI最热门的话题

· S是一组有限的状态。

· A是一组有限的动作。

· P是状态转移概率矩阵，它表示转移到另一个特定状态的概率。

· R是奖励函数。

· γ是折现因子γ∈[0,1]，它确定代理'计划'的数量，或者关心将来的奖励是否也与前面的奖励相对。

强化学习之旅，AI最热门的话题

> Example MDP. Source: StackAbuse

从简单的国际象棋游戏到压倒性的高级视频游戏，几乎每个现实世界都可以用马尔可夫决策过程来表示。

强化学习中最著名的问题之一是多臂匪，有时也称为N臂匪或K臂匪。在此问题中，一个人必须在多项行动之间做出选择-老虎机，'单臂匪徒'-每项行动的支出都是未知的。问题的目标是确定通过一系列选择实现的最佳或最有利可图的结果。在实验开始时，当赔率和赔付额未知时，赌徒必须确定要拉的机器，顺序和次数。

强化学习之旅，AI最热门的话题

这个问题是一个强化学习问题，因为玩家必须不断地与其环境互动，并在探索环境时改变其策略以优化奖励功能。

有很多算法可以接近多臂匪。

Epsilon-Greedy算法在探索与开发之间取得了平衡-'贪婪'实验总是会以已知的最高支出拉动杠杆，除非采取随机行动。随机选择的手臂被拉出时间的一部分ε，而其他1-ε的时间被拉出已知支出最高的手臂。

最高可信度边界策略基于面对不确定性原则的乐观主义，并基于可观察的数据，假设每个分支的未知平均收益将尽可能高。

汤普森采样（Thompson Sampling）是另一种策略，它根据给定杠杆成为最佳杠杆的实际概率来拉多次。

强化学习与深度学习相结合已显示出巨大的潜力，可以将深度学习的神经直觉和力量与强化学习的指导框架联系起来。例如，本文介绍了AlphaGo算法如何成为世界上最好的Go播放器，它被认为是人类最复杂的游戏。

除了RL参与游戏之外，强化学习在行业中的应用还远远不够。它的适应性和不断发展的系统使其处于有监督和无监督的学习方法之上，其结果在企业使用大数据时产生的成本很高，并且只能给出一个静态输出，这意味着随着新数据的传入，该算法需要全部进行训练。再次。

RL在机器人技术和自动化领域（尤其是在自动驾驶汽车中）具有极大的希望。这些是在工作中进行强化学习的特别出色的例子，因为该软件甚至可以在投入生产之前就在数百万英里的模拟道路上进行培训。在这种情况下，由于道路法规和情况不断更新，强化学习模型的效果要比单纯的监督学习模型更好，以预测下一步该怎么做。有监督的学习模型将需要完全更新，而强化学习将轻松采用新法则。

其他应用程序包括：

· 相机调整。最佳相机拍摄是什么？ RL模型需要根据用户的喜好进行调整，并可以根据传入的信息进行更新（如果用户使用了自动调整的设置，则可获得奖励；如果调整了自动调整的设置，则可获得罚款）。

· 仓库运营优化。由于仓库库存根据需求，库存，法规和其他因素而不断变化，因此，适应性强的学习算法可以更好地操作仓库操作。

强化学习之旅，AI最热门的话题

> Amazon Warehouse robots finding the most optimal path. Source

· 推荐系统。当用户输入有关歌曲或电影的更多信息时，系统会获得有关用户偏好的更多反馈。在这种情况下，使用强化学习比监督学习系统更好，因为用户的品味总是在变化。监督学习系统假定您去年评价很高的电影仍然会吸引您，但强化学习系统会证明这一点。

关键点

· 强化学习是机器学习的三个子集之一，其他子集是监督学习和无监督学习。

· 强化学习系统由环境和代理组成，代理可以根据策略在特定状态之间进行某些转换。每个动作都可能得到奖励或惩罚。

· 强化学习系统是有益的，因为它们比例如有监督的学习更具适应性。

谢谢阅读！如果喜欢，请随时投票。

(本文翻译自Andre Ye的文章《A Tour of Reinforcement Learning, the Hottest Topic in AI》，参考：https:///dataseries/a-tour-of-reinforcement-learning-the-hottest-topic-in-ai-3822de3a0936)