机器学习经典算法详解及Python实现

Z2ty6osc12zs6c 2018-05-17

展开全文

第一节，元算法略述

遇到罕见病例时，医院会组织专家团进行临床会诊共同分析病例以判定结果。如同专家团临床会诊一样，重大决定汇总多个人的意见往往胜过一个人的决定。机器学习中也吸取了‘三个臭皮匠顶个诸葛亮’（实质上是由三个裨将顶个诸葛亮口误演化而来）的思想，这就是元算法的思想。元算法（meta-algorithm）也叫集成方法（ensemble method），通过将其他算法进行组合而形成更优的算法，组合方式包括：不同算法的集成，数据集不同部分采用不同算法分类后的集成或者同一算法在不同设置下的集成。

有了元算法的思想，PAC（(Probably Approximately Correct）学习模型中就有了弱学习算法和强学习算法的等价性问题--即组合任意给定的弱学习算法 ,是否可以将其提升为强学习算法 ? 如果二者等价 ,那么只需将弱学习算法提升为强学习算法就行，而不必寻找很难获得的强学习算法。理论证明，实际上只要弱分类器个数趋向于无穷个时，其组合而成的强分类器的错误率将趋向于零。

弱学习算法---识别错误率小于1/2(即准确率仅比随机猜测略高的学习算法)

强学习算法---识别准确率很高并能在可接受时间内完成的学习算法

介绍几种比较重要的将多个分类器整合为一个分类器的方法--boostrapping方法、bagging方法和Boosting算法。

1）Bootstrapping：

i)重复地从一个样本集合D中采样n个样本，新样本中可能存在重复的值或者丢失原样本集合的一些值。

ii)针对每次采样的子样本集，进行统计学习，获得假设H_i

iii)将若干个假设进行组合，形成最终的假设H_final

iv)将最终的假设用于具体的分类任务

2）Bagging方法

i)训练分类器-从整体样本集合中，抽样n^* < N个样本，针对抽样的集合训练分类器C_i，抽取方法有很多种

ii)分类器进行投票，最终的结果是分类器投票的优胜结果，每个分类器权重是相等的

3）Boosting

Boosting是一种与Bagging很类似的技术，两者所使用的多个分类器的类型都是一致的。但是在前者当中，不同的分类器是通过串行训练而获得的，每个新分类器都在已训练出的分类器的性能基础上再进行训练，通过集中关注被已有分类器错分的些数据来获得新的分类器。Boosting分类的结果是基于所有分类器的加权求和结果的，分类器权重并不相等，每个权重代表的是其对应分类器在上一轮迭代中的成功度。Boosting算法有很多种，AdaBoost(Adaptive Boost)就是其中最流行的，与SVM分类并称机器学习中最强大的学习算法。

AdaBoost 是一种迭代算法，其核心思想是针对同一个训练集训练M个弱分类器，每个弱分类器赋予不同的权重，然后把这些弱分类器集合起来而构造一个更强的最终分类器，本文就详解AdaBoost算法的详细过程。

第二节，AdaBoost算法

（一）认识AdaBoost

AdaBoost算法有AdaBoost.M1和AdaBoost.M2两种算法，AdaBoost.M1是我们通常所说的Discrete AdaBoost，而AdaBoost.M2是M1的泛化形式。关于AdaBoost算法的一个结论是:当弱分类器算法使用简单的分类方法时,boosting的效果明显地统一地比bagging要好.当弱分类器算法使用C4.5时,boosting比bagging较好,但是没有前者明显。后来又有学者提出了解决多标签问题的AdaBoost.MH和AdaBoost.MR算法,其中AdaBoost.MH算法的一种形式又被称为Real Boost算法---弱分类器输出一个可能度，该值的范围是整个R, 和与之相应的权值调整，强分类器生成的AdaBoost算法。

事实上:Discrete AdaBoost是指,弱分类器的输出值限定在{-1,+1}，每个弱分类器有相应的权值，从而构成一个强分类器。本文就详解该二分类的AdaBoost算法，其他请参考‘Adaboost原理、算法以及应用’。

假设是二值分类问题，X表示样本空间，Y={-1,+1}表示样本分类。令S={(X_i,y_i)|i=1,2,…,m}为样本训练集，其中X_i∈X，y_i∈Y。再次重申，我们假设统计样本的分布式是均匀分布的，如此在两分类分类中（类别-1或者1）可以将阈值设为0。实际训练数据中，样本往往是不均衡的，需要算法来选择最优阈值（如ROC曲线）。AdaBoost算法就是学习出一个分类器Y_M(x) --由M个弱分类器构成。在进行分类的时候，将新的数据点x代入，如果Y_M(x)小于0则将x的类别赋为-1，如果Y_M(x)大于0则将x的类别赋为1。均匀分布中阈值就是0，非均衡分布则还要根据ROC曲线等方法确定一个分类的最优阈值。

基本过程：针对不同的训练集训练一个个基本分类器（弱分类器），然后集成而构成一个更强的最终的分类器（强分类器）。不同的训练集是通过调整训练数据中每个样本对应的权重实现的。每次训练后根据此次训练集中的每个样本是否被分类正确以及上次的总体分类的准确率，来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练，然后将每次训练得到的分类器融合起来，作为最后的决策分类器。

每个弱分类器可以是机器学习算法中的任何一个，如logistic回归，SVM，决策树等。

Adaboost有很多优点:

1)adaboost是一种有很高精度的分类器

2)可以使用各种方法构建子分类器，adaboost算法提供的是框架

3)当使用简单分类器时，计算出的结果是可以理解的，而且弱分类器构造极其简单

4)简单，不用做特征筛选

5)不用担心overfitting

（二）AdaBoost算法过程

完整的adaboost算法如下（训练样本样本总数是N个，M是迭代停止后（积累错误率为0或者达到最大迭代次数）得到弱分类器数目）。

给定一个训练数据集T={(x1,y1), (x2,y2)…(xN,yN)}，其中实例，而实例空间，yi属于标记集合{-1,+1}，Adaboost的目的就是从训练数据中学习一系列弱分类器或基本分类器，然后将这些弱分类器组合成一个强分类器，流程如下：

最开始的时候，每个样本对应的权重是相同的（1/m），在此样本分布下训练出一个基本分类器h₁(x)。对于h₁(x)错分的样本，则增加其对应样本的权重；而对于正确分类的样本，则降低其权重。这样可以使得错分的样本突出出来，并得到一个新的样本分布。同时，根据错分的情况赋予h₁(x)一个权重，表示该基本分类器的重要程度，错分得越少权重越大。在新的样本分布下，再次对基本分类器进行训练，得到基本分类器h₂(x)及其权重。依次类推，经过M次这样的循环，就得到了M个基本分类器及对应权重。最后把这M个基本分类器按一定权重累加起来，就得到了最终所期望的强分类器Y_M(x)。迭代的停止条件就是达到了训练样本累加分类错误率为0.0或者达到了最大迭代次数。

（i）初始化训练数据的权值分布，每一个训练样本最开始时被赋予相同的权值：1/N。

（ii）进行多轮迭代，迭代的停止条件就是达到了训练样本累加分类错误率为0.0或者达到了最大迭代次数L。用m = 1,2, ..., M表示迭代的第多少轮，也就是得到了多少个弱分类器，M<=L。

a.使用具有权值分布Dm的训练数据集学习，得到基本分类器：

b.计算G_m(x)在训练数据集上的分类误差率

由上述式子可知，Gm(x)在训练数据集上的误差率e_m就是被弱分类器G_m(x)分类错误样本的权值之和。就是在这里，训练样本权重因子发生了作用，所有的一切都指向了当前弱分类器的误差。提高分类错误样本的权值，下一个分类器学习中其“地位”就提高了（以单层决策树为例，因为每次都要得到当前训练样本中e_m最小的决策桩）；同时若这次的弱分类器再次分错了这些点，那么其错误率e_m也就更大，最终导致这个分类器在整个混合分类器的权值a_m变低---让优秀的分类器占整体的权值更高，而挫的分类器权值更低。

c. 计算G_m(x)的权值系数，a_m表示G_m(x)在最终分类器中的重要程度（目的：得到基本分类器在最终分类器中所占的权重）：

可知:e_m <= 1/2时(两分类Adaboost算法em不可能大于1/2)，a_m >= 0;a_m随着e_m的减小而增大，意味着分类误差率越小的本分类器在最终分类器中的作用越大。

另外，若某一个若分类器分类错误率为0计算a_m将会发生除数为0的异常，这属于边界处理。此时可以根据数据集的具体情况设定错误率为一个很小的数值，例如1e-16。观察样本权重更新就可以知道:没有错分，所有样本的权重就不会进一步调整,样本权重相当于没有改变。当然，该弱分类器权重alpha将较大，但是因为算法并不因此停止，如果后面还有其他弱分类器也能达到训练错误率为0，也同样会有较大的权重，从而避免由单个弱分类器完全决定强分类器的情况。当然，如果第一个弱分类器错误率就为0，那么整个分类就完成了，它有再大的权重alpha也无妨。采用下述修正方案：

alpha = float(0.5*log((1.0-error)/max(error,1e-16) ))

d. 更新训练数据集的权值分布（目的：得到样本的新的权值分布），用于下一轮迭代。这使得被基本分类器G_m(x)分类错误的样本的权值增大，而被正确分类样本的权值减小。通过这样的方式，AdaBoost算法提高了较难分类的样本的‘地位’。

Z_m的意义在于让权重因子之和为1.0，使向量D是一个概率分布向量。其定义是

（iii）组合各个弱分类器得到最终分类器，如下：

（三）Python实现单决策树AdaBoost算法

单层决策树（decision stump，也叫决策树桩）是一种简单的决策树，决策树中只有一个树桩，也就是仅基于样本单个特征来做决策分类。单层决策树是AdaBoost算法中最流行的弱分类器。

AdaBoost把多个不同的决策树用一种非随机的方式组合起来，表现出惊人的性能。第一，把决策树的准确率大大提高，可以与SVM媲美。第二，速度快，且基本不用调参数。第三，几乎不Overfitting。本节就以多个单层决策树做基本分类器实现AdaBoost算法，值得注意的是每个基本分类器单层决策树决策用分类使用的特征都是在样本N个特征中做最优选择的（也就是说在分类特征选择这个层面，每个单层决策树彼此之间是完全独立的，可能若干个单层决策树都是基于同一个样本特征），而非样本特征的串联。

该版本的AdaBoost分类算法包含decisionstump.py（decisionstump对象，其属性是包含dim, thresh, ineqtype三个域的决策树桩，方法有buildstump()、stumpClassify()等。），adaboost.py, object_json.py, test.py，其中adaboot.py实现分类算法，对象adaBoost包含属性分类器词典adaboostClassifierDict和adaboost train&classify方法等。为了存储和传输更少的字节数，也可以在adaboost模块增加一个新类adaboostClassifier只用来存储分类词典和分类算法（本包中没有这么做）。test模块则包含了一个使用adaboost分类器进行分类的示例。

由于adaboost算法每一个基本分类器都可以采用任何一种分类算法，因此通用的方案是采用dict来存储学习到的AdaBoost分类器，结构如下图：

adaboost对象可以针对决策树、SVM等定义私有的各种弱分类算法，train和classifier方法则会根据当前的弱分类器类型创建响应的弱分类器实例并调用私有弱分类train\classifer方法完成train\classify。需要记住的是，adaboost train方法创建的弱分类器对象只用来调用相应的弱分类器方法，而该弱分类实例所有的属性则存储在adaboostClassifierDict中，这样可以减少弱分类器实例数目。另外，方法jsonDumpsTransfer()和jsonLoadTransfer()则要根据adaboostClassifierDict中支持的弱分类器类型删除\创建相应实例，从而支持JSON存储和解析。

采取上图中的分类器存储方案及相应的分类函数，AdaBoost支持每一个基本分类器在决策树、贝叶斯、SVM等监督学习算法中做最优选择。分类其中adaboostClassifierDict中的classifierType用户可以自己指定，从而在上述分类存储结构的基础上做一些利于分类器程序编写的调整。我实现的单层决策树Adaboost指定classifierType为desicionstump，即基本分类器采用desicionstump，每一个弱分类器都是一个DS对象。所以存储结构可以调整为下图所示（利于分类函数实现）：

通过调整adaboost算法弱分类器的数目，会得到分类错误率不同的adaboost分类器。测试证明，numIt=50时错误率最低。

AdaBoost分类算法学习包的下载地址是：