漫谈强化学习之n-armed bandit

啊司com 2017-02-15

展开全文

从本期开始，我将逐一介绍强化学习的知识，并附其TensorFlow代码实现。

n-armed bandit问题是一种非关联式的强化学习，它不是完全的强化学习，但是可以为我们提供一点强化学习的入门知识。n-armed bandit问题的原始描述如下：

假如现在有n个不同的选择，每次做出一个选择之后都会得到一个随机的回报值，每一种选择的回报值都是基于某个稳定的概率分布产生的。解决的问题是希望在一段时间之后，回报值期望可以达到最大。前提是我们事先并不知道每个决策在特定时刻会产生多大的回报值。

n-armed bandit问题是基于决策的，而每一步的决策是根据价值估计来确定的，t时刻、决策a的价值估计记为Qt(a)，而决策a的真实价值记为q*(a)。

价值估计是根据之前的每一步回报值来计算的，随着决策的次数越来越多，估计的价值会越来越逼近于真实价值。价值估计是基于sampe-average方法，即对以往所有回报取平均得到。

有了价值估计之后，如何采取相应的决策（action）呢？这里就要提到强化学习中的expoitation和exploration了，为了在二者之间做一个权衡，使用的是e-greedy算法，即保持e的概率进行随机决策，1-e的概率进行贪婪决策。文末附的代码中会有比较greedy算法与e-greedy算法对回报的影响。

除了greedy算法和e-greedy算法以外，softmax算法也可以用来进行决策。softmax算法相比e-greedy算法的好处就是其可以有区分地随机选择决策，而e-greedy是纯随机的选取。softmax算法选取决策是基于玻尔兹曼概率分布公式的，由于softmax在有监督深度学习中使用频次非常高，这里便不再对它深入介绍。不同的是，这里引入了一个温度系数t，温度系数的选取因不同问题而异。