深入剖析机器学习中的统计思想

吴敬锐 2019-12-09

展开全文

现在机器学习中大家达成了一个共识: 如果你在用一个机器学习方法，而不懂其基础原理和解释性，这是一件非常可怕的事情。

深入剖析机器学习中的统计思想

统计强调推理，而机器学习则强调预测。执行统计信息时，需要推断生成数据的过程。当你进行机器学习时，你想知道用什么样的变量，以及预测未来会是什么样子。

以统计思想的视角，了解数据分布、评估各种结果的概率、理解数据生成过程、模型解释性是关注的重点，而机器学习更多的关注的是预测的准确性，我们知道，模型的实际应用光有准确性是不够的，人类到现在还没有一个非常成功的机器（系统），工作的好却不能解释。所以机器学习中，统计思想的应用是非常重要的。

统计学与计算机学家之争

原来统计是在统计系，机器学习是在计算机系，这两个是不相来往的，而且互相都不认同对方的价值。专注于机器学习的计算机学家认为那些统计理论没有用，不解决问题；而统计学家则认为计算机学家只是在重新建造轮子，没有新意。

然而，随着机器学习的迅猛发展，统计学家认识到计算机学家正在做出的贡献，而计算机学家也认识到统计的理论和方法论的普遍性意义。

深入剖析机器学习中的统计思想

Boosting, SVM 和稀疏学习是机器学习界也是统计界，是近二十年来最活跃的方向，其实是二者相辅相成的结果。比如，SVM的理论其实很早被Vapnik等提出来了，但计算机界发明了一个有效的求解算法，而且后来又有非常好的实现代码被陆续开源给大家使用，于是SVM就变成分类算法的一个基准模型。

机器学家通常具有强的计算能力和解决问题的直觉，而统计学家长于理论分析，具有强的建模能力，因此，两者有很好的互补性。

所以两者融合是必然的趋势。

统计思想对机器学习的巨大贡献

我们清楚的知道，机器学习在应用中迅猛发展，是人工智能具体落地的主角，也是台前英雄，而统计却是幕后推动者。

机器学习是数据建模的计算机科学观点，侧重于算法方法和模型技能。
统计学习是数据建模的数学视角，侧重于模型参数的准确估计、模型有效性和拟合优度。

机器学习由于过度关注预测准确性，缺乏完全发展的推理概念。

1）似乎没有人认识到任何预测（参数估计等）都会受到随机误差和系统误差（偏差）的影响。统计学家会接受这是预测中不可避免的一部分，并会尝试估计错误。统计技术将尝试找到具有最小偏差和随机误差的估计。

2）在机器学习中似乎没有深入理解将模型应用于来自同一分布群体的新样本限制，尽管我们有划分训练集、测试集。实际上，源于统计思想的交叉验证和惩罚方法，指导在简约性和模型复杂性之间达到权衡，早已是统计中非常广泛的手段。而大部分机器学习从业者对这些指导原则似乎更为临时。

所以，机器学习从业者必须保持开放的思维并利用方法，并从应用统计和统计学习的密切相关领域中理解术语，并在实际中充分应用统计思想，才能更好的将机器学习应用到实践中。

正则化：统计中的惩罚思想

在机器学习中，我们在正则化和SVM中接触到惩罚方法，没学过统计的，会感觉很陌生，其实这是在统计中经常用的方法了。比如光滑样条Smooth Spline通过对二阶导数进行惩罚来控制拟合曲线的光滑程度；LASSO和Ridge regression回归。

深入剖析机器学习中的统计思想

惩罚的核心目的是限制参数空间的大小以降低模型复杂度，惩罚本身反应我们对对应统计问题的某种先验知识。惩罚有独特的概率上的解释，比如假设高斯噪声的线性模型中，LASSO的L1惩罚相当于给回归参数加上了一个Laplace prior，而岭回归Ridge regression中的L2惩罚则对应一般的normal prior。

深入剖析机器学习中的统计思想

在SVM的硬间隔支持向量机中，由于几何间隔本身代表的是距离，是非负的，像上图所示的红色、绿色两个噪声点会使得整个问题无解。所以引入惩罚因子（松弛变量）这种统计学中的思想，使SVM有了容错能力，更鲁棒了。

线性回归：随机变量和离差平方和

深入剖析机器学习中的统计思想

机器学习之前，线性回归其实已经是在统计学中用的最多的方法，所以如果我们理解线性回归算法，如果以数据和拟合的机器学习视角来看问题，可能就觉得太简单了，甚至理解的不那么深刻；而从统计的视角来看，就会发现还不是那么简单，意义还很多，看看其统计思想：

1、随机变量

Y= Xβ+ε

深入剖析机器学习中的统计思想

Y是 X的线性函数(部分)加上误差项，线性部分反映了由于X的变化而引起的Y的变化，误差项ε是随机变量，一般是均值为零的高斯分布。反映了除X和Y之间的线性关系之外的随机因素对Y的影响。是不能由X和Y之间的线性关系所解释的变异性。所以理解了随机变量，才能真正理解我们拟合优度目标。

2、离差平方和

深入剖析机器学习中的统计思想