理解正则化[toc] 正则化的由来有几种角度来看待正则化(Regularization),它符合奥卡姆剃刀(Occam’s razor)原理:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单的才是最好的模型。从贝叶斯估计的角度来看,正则化项对应于模型的先验概率。还有个说法就是,正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。 高维统计分析模型通常都是稀疏模型,即真正有效的变量只占一小部分,绝大多数变量都是噪声数据。因此当模型的参数过多时,不仅无法提高模型的解释力,反而会降低模型的解释力。 正则化方法的思想:处理最优化函数问题时,在目标函数中加入对参数的约束惩罚项,从而达到简化模型的目的。 L0, L1和L2范数指的就是三种不同惩罚函数的形式,它们的通式形如
因此:
这三者的区别: L0范数和L1范数都具有变量选择的功能,但L0范数很难优化求解(NP问题),而L1范数是L0范数的最优凸近似,L1范数比L0范数更容易求解,所以L1范数被广泛应用到各种各样的模型中。 ==L1、L2对模型空间限制的解释:==我们将模型空间限制在系数的一个norm-ball 中。为了便于可视化,我们考虑两维的情况,在 平面上可以画出目标函数的等高线,而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解:
可以看到,L1-ball 与L2-ball 的不同就在于L1在和每个坐标轴相交的地方都有“角”出现,而目标函数的测地线除非位置摆得非常好,大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性,例如图中的相交点就有w1=0,而更高维的时候(想象一下三维的L1-ball 是什么样的?)除了角点以外,还有很多边的轮廓也是既有很大的概率成为第一次相交的地方,又会产生稀疏性。 相比之下,L2-ball 就没有这样的性质,因为没有角,所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么L1-regularization 能产生稀疏性,而L2-regularization 不行的原因了。 因此,一句话总结就是:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。 ==关于正则化是贝叶斯先验,整个优化目标是最大后验概率的解释:==参考文献: |
|