Caffe中的SGD的变种优化算法(2)

高教帮 2019-03-14

展开全文

优化算法

Caffe中的SGD的变种优化算法(2)

接上回，我们继续来看优化的算法。

Adam

关于adam的算法，我觉得它的复杂程度比前面的算法更高，但是它还是主要使用了和计算动量相同的方法，并把这种方法应用到梯度的一阶总量和二阶总量上：

它的代码如下所示：

def adam(x_start, step, g, beta1 = 0.9, beta2 = 0.999,delta=1e-8):

x = np.array(x_start, dtype='float64')

sum_m = np.zeros_like(x)

sum_v = np.zeros_like(x)

passing_dot = [x.copy()]

for i in range(50):

grad = g(x)

sum_m = beta1 * sum_m + (1 - beta1) * grad

sum_v = beta2 * sum_v + (1 - beta2) * grad * grad

correction = np.sqrt(1 - beta2 ** i) / (1 - beta1 ** i)

x -= step * correction * sum_m / (np.sqrt(sum_v) + delta)

passing_dot.append(x.copy())

if abs(sum(grad)) < 1e-6:

break;

return x, passing_dot

前面也说过，实际上这些算法背后都有些原理的，但是这些原理在我们看来可能都比较抽象，所以再我们看完实验再看原理可能会更有感觉。下面我们看看它的表现：

res, x_arr = adam([5, 5], 0.1, g)

contour(X,Y,Z, x_arr)

好吧，这一回它是唯一一个走得有点过头的算法，不过最后还是走上了正道。

这样除了Nesterov算法之外，我们把其他所有的算法都展示出来了。前面这个实验中，我们希望检验算法的“拐弯”能力。也就是说一开始算法冲着一个局部最优点而来，什么时候它会发现这是个骗局并掉头朝向真正的最优值呢？现在每一个算法都给我们交出了答案。仔细看来每个算法的表示还是不太一样的。有的算法比较灵敏，刚发现不对就调头逃跑，有的算法则是冲过了头才转过身来。有的算法做到这一切十分容易，并不需要很大的Learning rate，有的算法则需要强大的力量才能转过来，否则就会行动缓慢。

好了，各位童鞋，转弯赛到此结束，下面我们进入下一个比赛——爬坡赛。爬坡赛的比赛规则是，所有算法使用同样的参数，从鞍点附近出发，经过50轮迭代，看看它能走到哪里。