大牛学习笔记：机器学习算法概览

shawnsun007 2016-03-13

展开全文

本文是翻译文章，但我并未逐字句的翻译，而是有所删减，并加入了一些自己的补充。

机器学习（Machine Learning， ML）是什么，作为一个MLer，经常难以向大家解释何为ML。久而久之，发现要理解或解释机器学习是什么，可以从机器学习可以解决的问题这个角度来说。对于MLers，理解ML解决的问题的类型也有助于我们更好的准备数据和选择算法。

十个机器学习问题样例

想入门机器学习的同学，经常会去看一些入门书，比如《集体智慧编程》、《机器学习实战》、《数据挖掘》、《推荐系统实践》等。看书的过程中，经常性的会看到如下样例：

垃圾邮件识别
信用卡交易异常检测
手写数字识别
语音识别
人脸检测
商品推荐
疾病检测（根据以往病例记录，确定病人是否患病）
股票预测
用户分类（根据用户行为判断该用户是否会转化为付费用户）
形状检测（根据用户在手写板上上画得形状，确定用户画的到底是什么形状）

因此，当再有人问ML是什么的时候，就可以说这个是ML可以handle的，这个问题ML也可以handle，blahblah。

机器学习问题类型

对问题进行分类，好处就在于可以更好的把握问题的本质，更好的知道什么类型的算法需要用到。

一般有四大类型：

分类（classification）：有一些已经标注好类别的数据，在标注好的数据上建模，对于新样本，判断它的类别。如垃圾邮件识别
回归（regression）：有一些已经标注好的数据，标注值与分类问题不同，分类问题的标注是离散值，而回归问题中的标注是实数，在标注好的数据上建模，对于新样本，得到它的标注值。如股票预测。
聚类（clustering）：数据没有被标注，但是给出了一些相似度衡量标准，可以根据这些标准将数据进行划分。如在一堆未给出名字的照片中，自动的将同一个人的照片聚集到一块。
规则抽取（rule extraction）：发现数据中属性之间的统计关系，而不只是预测一些事情。如啤酒和尿布。

机器学习算法

知道了机器学习要解决的问题后，就可以思考针对某一个问题，需要采集的数据的类型和可以使用的机器学习算法，机器学习发展到今天，诞生了很多算法，在实际应用中往往问题在于算法的选择，在本文中，使用两种标准对算法进行分类，即学习方式和算法之间的相似性。

学习方式（Learning Style）

在ML中，只有几个主流的学习方式，在下面的介绍中，使用一些算法和问题的样例来对这些方式进行解释说明。按照学习方式对机器学习算法进行分类可以使我们更多的思考输入数据在算法中的角色和使用模型前需要的准备工作，对我们选择最适合的模型有很好的指导作用。

监督学习（supervised learning）：输入数据都有一个类别标记或结果标记，被称作训练数据，比如垃圾邮件与非垃圾邮件、某时间点的股票价格。模型由训练过程得到，利用模型，可以对新样本做出推测，并可以计算得到这些预测的精确度等指标。训练过程往往需要在训练集上达到一定程度的精确度，不欠拟合或过拟合。监督学习一般解决的问题是分类和回归，代表算法有逻辑斯底回归（Logistic Regression）和神经网络后向传播算法（Back Propagation Neural Network）。
无监督学习（Unsupervised Learning）：输入数据没有任何标记，通过推理数据中已有的结构来构建模型。一般解决的问题是规则学习和聚类，代表算法有Apriori算法和k-means算法。
半监督学习（Semi-Supervised Learning）：输入数据是标注数据和非标注数据的混合，它也是为了解决预测问题的，但是模型必须同时兼顾学习数据中已经存在的结构和作出预测，即上述监督学习和无监督学习的融合。该方法要解决的问题仍然是分类的回归，代表算法一般是在监督学习的算法上进行扩展，使之可以对未标注数据建模。
增强学习（Reinforcement Learning）：在这种学习方式中，模型先被构建，然后输入数据刺激模型，输入数据往往来自于环境中，模型得到的结果称之为反馈，使用反馈对模型进行调整。它与监督学习的区别在于反馈数据更多的来自于环境的反馈而不是由人指定。该方式解决的问题是系统与机器人控制，代表算法是Q-学习（Q-learning）和时序差分算法（Temporal difference learning）。

在商业决策中，一般会使用的方法是监督学习和无监督学习。当下一个热门的话题是半监督学习，比如在图片分类中，有很多数据集都是有少量的标记数据和大量的非标记数据。增强学习更多的用于机器人控制机其他的控制系统中。

算法相似度（Algorithm Similarity）

一般会根据模型的模式或者函数模式的相似度来对算法进行划分。比如基于树的方法（tree-based method）与神经网络算法（neural network）。当然，这种方法并不完美，因为很多算法可以很容易的被划分到多个类别中去，比如学习矢量量化算法（Learning Vector Quantization）既是神经网络算法也是基于样例的算法（Instance-based method）。在本文中，可以看到很多不同的分类方法。