UFLDL 08 Softmax Regression

学海无涯GL 2017-02-08

展开全文

所谓softmax regression 是在logistic regression基础上的升级版。
logistics是二分类，而softmax可以多分类。

1 logistic regression

学习softmax regression之前我们先回归一下 logistic regression的相关知识。
（参见http://blog.csdn.net/bea_tree/article/details/50432411#t6）
logistic regression的函数是这里写图片描述
他的名字虽然是回归，但是功能却是分类，原因是，原有数据回归的曲线是logistic的曲线，他们的值要么接近1 要么接近0。
另外他们的目标函数是利用概率相乘得到的最大似然估计：

为了好计算一般取对数，L最大时就拟合好了。
这里的利用梯度下降法得到的迭代公式与线性回归的迭代公式是一样的，好巧。还有其他算法（perceptron learning algorithm）的迭代形式也是这样。
文中的代价函数是处理之后的，直接求最小值就行了
这里写图片描述

2 softmax regression

上面可以看到logistic的公式主要的思想是用的概率，当y等于0时得到的是等于0的概率，y=1时得到的是等于1的概率。
softmax的思想是分别得到多分类的概率，其公式如下：
这里写图片描述
好好理解下上式：
可以看成这是k个式子组成的矩阵形式。属于一组x会得到k个类别的概率。
既然我们对每个类别的概率已经做了假设
那么可以仿照最大似然的思想来得到下面的代价函数

如果输入x对应的类别是j，那么对应的概率就是这里写图片描述。
将所有的m个x的概率相乘就是最大似然函数，求log（乘积变相加）然后加负号之后求最小值就相当于求最大似然的最大值。
上面的代价函数就是这个意思。
其梯度的迭代公式如下

3 softmax 的参数特性

知道了它的基本原理之后，我们思考一个问题，如果我们知道前k-1个分类的概率，那么第k个的概率还需要知道么？显然是没有必要的，这可以理解为softmax参数冗余性overparameterized 的直接理解（博主的理解，慎信）。
文中的理解更加严密些：
将概率公式中的参数直接减去一个向量ψ得到概率公式依然没有变
这里写图片描述
也就是说得到的最优化结果直接减去这个向量之后的结果依然是满足条件的最优解，换句话说，最优解有无数个。也就是hessian矩阵是奇异的（singular/non-invertible），使用牛顿法就不好用了。
按照上面的理解我们可以将其中一类的参数全都设为0，这样就不会产生冗余了，但是实际中我们并不这然做，而是加了规则相，不过这里不叫做规则化而叫作Weight Decay。