本文是翻译文章,但我并未逐字句的翻译,而是有所删减,并加入了一些自己的补充。 机器学习(Machine Learning, ML)是什么,作为一个MLer,经常难以向大家解释何为ML。久而久之,发现要理解或解释机器学习是什么,可以从机器学习可以解决的问题这个角度来说。对于MLers,理解ML解决的问题的类型也有助于我们更好的准备数据和选择算法。 十个机器学习问题样例想入门机器学习的同学,经常会去看一些入门书,比如《集体智慧编程》、《机器学习实战》、《数据挖掘》、《推荐系统实践》等。看书的过程中,经常性的会看到如下样例:
因此,当再有人问ML是什么的时候,就可以说这个是ML可以handle的,这个问题ML也可以handle,blahblah。 机器学习问题类型对问题进行分类,好处就在于可以更好的把握问题的本质,更好的知道什么类型的算法需要用到。 一般有四大类型:
机器学习算法知道了机器学习要解决的问题后,就可以思考针对某一个问题,需要采集的数据的类型和可以使用的机器学习算法,机器学习发展到今天,诞生了很多算法,在实际应用中往往问题在于算法的选择,在本文中,使用两种标准对算法进行分类,即学习方式和算法之间的相似性。 学习方式(Learning Style)在ML中,只有几个主流的学习方式,在下面的介绍中,使用一些算法和问题的样例来对这些方式进行解释说明。按照学习方式对机器学习算法进行分类可以使我们更多的思考输入数据在算法中的角色和使用模型前需要的准备工作,对我们选择最适合的模型有很好的指导作用。
在商业决策中,一般会使用的方法是监督学习和无监督学习。当下一个热门的话题是半监督学习,比如在图片分类中,有很多数据集都是有少量的标记数据和大量的非标记数据。增强学习更多的用于机器人控制机其他的控制系统中。 算法相似度(Algorithm Similarity)一般会根据模型的模式或者函数模式的相似度来对算法进行划分。比如基于树的方法(tree-based method)与神经网络算法(neural network)。当然,这种方法并不完美,因为很多算法可以很容易的被划分到多个类别中去,比如学习矢量量化算法(Learning Vector Quantization)既是神经网络算法也是基于样例的算法(Instance-based method)。在本文中,可以看到很多不同的分类方法。 回归(Regression)回归是在自变量和需要预测的变量之间构建一个模型,并使用迭代的方法逐渐降低预测值和真实值之间的误差。回归方法是统计机器学习的一种
基于样例的方法(Instance-based Methods)基于样例的方法需要一个样本库,当新样本出现时,在样本库中找到最佳匹配的若干个样本,然后做出推测。基于样例的方法又被成为胜者为王的方法和基于内存的学习,该算法主要关注样本之间相似度的计算方法和存储数据的表示形式。
正则化方法(Regularization Methods)这是一个对其他方法的延伸(通常是回归方法),这个延伸就是在模型上加上了一个惩罚项,相当于奥卡姆提到,对越简单的模型越有利,有防止过拟合的作用,并且更擅长归纳。我在这里列出它是因为它的流行和强大。
决策树模型(Decision Tree Learning)决策树方法建立了一个根据数据中属性的实际值决策的模型。决策树用来解决归纳和回归问题。
贝叶斯(Bayesian)贝叶斯方法是在解决归类和回归问题中应用了贝叶斯定理的方法。
核方法(Kernel Methods)核方法中最有名的是Support Vector Machines(支持向量机)。这种方法把输入数据映射到更高维度上,将其变得可分,使得归类和回归问题更容易建模。
聚类(Clustering Methods)聚类本身就形容了问题和方法。聚类方法通常是由建模方式分类的比如基于中心的聚类和层次聚类。所有的聚类方法都是利用数据的内在结构来组织数据,使得每组内的点有最大的共同性。
联合规则学习(Association Rule Learning)联合规则学习是用来对数据间提取规律的方法,通过这些规律可以发现巨量多维空间数据之间的联系,而这些重要的联系可以被组织拿来使用或者盈利。
人工神经网络(Artificial Neural Networks)受生物神经网络的结构和功能的启发诞生的人工神经网络属于模式匹配一类,经常被用于回归和分类问题,但是它存在上百个算法和变种组成。其中有一些是经典流行的算法(深度学习拿出来单独讲):
深度学习(Deep Learning)Deep Learning(深度学习)方法是人工神经网络在当下的一个变种。相比传统的神经网络,它更关注更加复杂的网络构成,许多方法都是关心半监督学习,就是一个大数据集中只有少量标注数据的那种问题。
降维(Dimensionality Reduction)与聚类方法类似,对数据中的固有结构进行利用,使用无监督的方法学习一种方式,该方式用更少的信息来对数据做归纳和描述。这对于对数据进行可视化或者简化数据很有用,也有去除噪声的影响,经常采用这种方法使得算法更加高效。
组合方法(Ensemble Methods)Ensemble methods(组合方法)由许多小的模型组成,这些模型经过独立训练,做出独立的结论,最后汇总起来形成最后的预测。组合方法的研究点集中在使用什么模型以及这些模型怎么被组合起来。
文章出处:http://blog.csdn.net/stdcoutzyx/article/details/44501797 |
|
来自: shawnsun007 > 《数据分析与人工智能》