搜索

分享

QQ空间 QQ好友新浪微博微信

正则化

quasiceo 2016-01-18

展开全文

正则化 -- 本质上加入惩罚项，约束优化空间（公式有问题，请看原始链接）

(2014-07-09 15:05:10)

标签：

股票

分类：图形图像

一、正则化（Regularization）

http:///ml/2012/12/29/normalization-regularization.html

李航博士在《统计学习方法》中提到，统计学习的三要素是模型、策略和算法，在机器学习领域，这个“模型”就是我们要求解的概率分布或决策函数。

假设我们现在要求一个逻辑回归问题，首先我们要做的是假设一个函数，可以覆盖所有的可能：y=wx，其中w为参数向量，x为已知样本的向量，如果用yi表示第i个样本的真实值，用f(xi)表示样本的预测值，那么我们的损失函数可以定义为:

L(yi,f(xi))=yi?sigmoid(xi)

这里可以不用关心这个函数是什么意思，就知道代表误差就行了。对于该模型y=wx的所有样本的损失平均值成为“经验风险”(empirical risk)或”经验损失”(empirical loss)。很显然，经验风险最小化（empirical risk minimization,ERM）就是求解最优模型的原则。为了达到这个目的，模型的设定会越来越复杂，最后造成该模型只适用于当前的样本集（即over-fitting，过拟合）。

为了解决过拟合问题，通常有两种办法，第一是减少样本的特征（即维度），第二就是我们这里要说的”正则化“（又称为”惩罚“,penalty）。

正则化的一般形式是在整个平均损失函数后增加一个正则项(L2范数正则化，也有其他形式的正则化，他们的作用也不同)：

Rerm=1N(∑iNL(yi,f(xi))+∑inλw2i)

后面的∑niλw2i就是正则化项，其中λ越大表明惩罚粒度越大，等于0表示不做惩罚，N表示所有样本的数量，n表示参数的个数。

从下面的图中，可以很明显的看出正则化函数的作用：

λ=0的情况，即没有正则化

λ=1的情况，即合适的惩罚

λ=100，过度惩罚，出现欠拟合问题

上面提到，我们还有其他形式的正则化，如L1范式正则化，可以用来筛选参数，这个日后再通过额外的文章来介绍。

二、归一化（Normalization）

我们在对数据进行分析的时候，往往会遇到单个数据的各个维度量纲不同的情况，比如对房子进行价格预测的线性回归问题中，我们假设房子面积（平方米）、年代（年）和几居室（个）三个因素影响房价，其中一个房子的信息如下：

面积(S)：150 平方米
年代(Y)：5 年

假设我们把该问题作为一个逻辑回归问题y=wx来求解，使用梯度下降来求解w的最优值。

效率比较高的梯度下降方法中，每次下降应该尽可能的往最优点靠近，假设下降距离函数为：

distance=λ|Δ?|

其中|Δ?|表示梯度的模，λ表示步长，如果两个向量的取值范围差别特别大，那么这两个向量的图像会显得很“细长”：

我们的梯度在寻找最优值的时候，由于图像“细长”，所以要来回找垂直线，两个维度范围相差的越大，梯度下降的越慢，还可能永远无法收敛。

为了解决这个问题，假如我们把所有的数据范围都是用归一化处理在0到1的区间内（也可以是0到10等其他范围，但一般是0到1），如使用以下归一化公式：

x?i=xi?xˉxmax?xmin

我们的图像就会变得更加“正圆”一些：

我们可以很清楚的看到，梯度会更加快速的找到最优点。

后记

其实这篇文章写之前，我还纠结了很久“标准化（Standardization）”这个概念，最后请教了很多人，发现大家最常用的还是归一化和正则化两个概念。不同的场合大家的称谓也不同，总结起来还是按照英文来说比较没有歧义：Normalization和Regularization两个概念。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： quasiceo > 《待分类1》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

quasiceo

关注对话

TA的最新馆藏

[转] 要改变的不是目的地，而是行动路线
[转] 给自己留下8%的“失败空间”
[转] 自我认知的3个核心问题（4000字长文）
[转] 【荐】安东尼罗宾的故事及经典语录
[转] Delphi执行CMD命令
[转] 携手Delphi，保护我们的.NET程序

喜欢该文的人也喜欢更多

热门阅读换一换