【数说学院】机器学习分类大全

kieojk 2016-07-14

展开全文

作者 | 冰 · 冰

本文及图的作者是两个人，她们是一个女子博士团体——冰 · 冰

图中整理了机器学习的各种方法，大体分为监督式学习、半监督式学习、无监督式学习、增强学习、其他五大类，每一类都有很多算法实现。点击查看大图，下面的内容是文字版的整理。

编辑 | 数说君

一、监督式学习 Supervised Learning

在监督式学习下，每组训练数据都有一个标识值或结果值，如客户流失对应1，不流失对应0。在建立预测模型的时候，监督式学习建立一个学习过程，将预测的结果与训练数据的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。

1. 分类 Classification

（1）K最近邻 K-Nearest Neighbor (KNN)

（2）朴素贝叶斯 Naive Bayes

（3）决策树 Decision Tree

◆ C4.5

◆ 分类回归树 Classification And Regression Tree (CART)

（4）支持向量机器 Support Vector Machine (SVM)

2. 回归 Regression

（1）线性回归 linear regression

（2）局部加权回归 Locally weighted regression

（3）逻辑回归 logistic Regression

（4）逐步回归 stepwise regression

（5）多元自适应回归样条法 multivariate adaptive regression splines

（6）局部散点平滑估计 Locally estimated scatter plot smoothing ( LOESS )

（7）岭回归 Ridge Regression

（8）Least Absolute Shrinkage and Selection Operator ( LASSO )

（9）弹性网络 Elastic Net

（10）多项式回归 Polynomial Regression

3. 排序 Rank

（1）单文档分类 Pointwise

◆ McRank

（2）文档对方法（Pairwise）

◆ Ranking SVM

◆ RankNet

◆ Frank

◆ RankBoost

（3）文档列表方法（Listwise）

◆ AdaRank

◆ SoftRank

◆ LambdaMART

4. 匹配学习

（1）人工神经网络

◆ 感知神经网络 Perception Neural Network

◆ 反向传递 Back Propagation

◆ Hopfield网络

◆ 自组织映射 Self-Organizing Map ( SOM )

◆ 学习矢量量化 Learning Vector Quantization ( LVQ )

二、半监督学习

在半监督学习方式下，训练数据有部分被标识，部分没有被标识，这种模型首先需要学习数据的内在结构，以便合理的组织数据来进行预测。算法上，包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如深度学习：

1. 深度学习 Deep Learning

深度学习是监督学习的匹配学习中人工神经网络延伸出来发展出来的。

（1）受限波尔兹曼机 Restricted Boltzmann Machine ( RBM )

（2）深度信念网络 Deep Belief Networks ( DBN )

（3）卷积网络 Convolutional Network

（4）栈式自编码 Stacked Auto-encoders

三、无监督学习 Unsupervised Learning

在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。

1. 聚类 Cluster

（1）K均值 k-means

（2）最大期望算法 Expectation Maximization ( EM )

（3）降维方法 Dimensionality Reduction

◆ 主成分分析Principal Component Analysis ( PCA )

◆ 偏最小二乘回归 Partial Least Squares Regression ( PLS )

◆ Sammon映射 Sammon Mapping

◆ 多维尺度分析 Multidimensional Scaling ( MDS )

◆ 投影寻踪 Projection Pursuit

◆ RD

2. 关联规则 Association Rule

（1）Apriori

（2）Eclat

四、增强学习 Reinforcement Learning

在之前的讨论中，我们总是给定一个样本x，然后给或者不给标识值或结果值（给了就是监督式学习，不给就是无监督式学习）。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题，很难有这么规则的样本。比如，四足机器人的控制问题，刚开始都不知道应该让其动那条腿，在移动过程中，也不知道怎么让机器人自动找到合适的前进方向。

增强学习要解决的是这样的问题：一个能感知环境的自治agent，怎样通过学习选择能达到其目标的最优动作。这个很具有普遍性的问题应用于学习控制移动机器人，在工厂中学习最优操作工序以及学习棋类对弈等。当agent在其环境中做出每个动作时，施教者会提供奖励或惩罚信息，以表示结果状态的正确与否。例如，在训练agent进行棋类对弈时，施教者可在游戏胜利时给出正回报，而在游戏失败时给出负回报，其他时候为零回报。agent的任务就是从这个非直接的，有延迟的回报中学习，以便后续的动作产生最大的累积效应。

1. Q-Learning

2. 时间差学习 Temporal difference learning

五、其他

集成算法

集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练，然后把结果整合起来进行整体预测。

1. Boosting

2. Bootstrapped Aggregation ( Bagging )

3. AdaBoost

4. 堆叠泛化 Stacked Generalization

5. 梯度推进机 Gradient Boosting Machine ( GBM )

6. 随机森林 Random Forest

图中还总结了机器学习的应用领域，在图左上角。目前，机器学习被广泛运用在：