机器学习教程

qianfengnh 2019-04-07

展开全文

我们今天就来分享一篇来自 EliteDataScience 上专门讲给机器学习入门自学者的教程，一步步教你如何从基础小白进阶为 ML 大拿。快上车吧，别找硬币了，这趟车不要钱！

你是否正在准备自学机器学习，但又不知道怎么去学、还被那些贵的要命的培训课程吓得不行？

今天我们在这篇文章里就教你怎样免费获得世界级的机器学习教育，你既不需要有博士学位，也不必是技术大牛，更不必卖好几个肾去买一份很贵的培训课程。不管你是想成为数据科学家还是在开发中使用机器学习算法，其实你都能比想象中更快地学习和应用机器学习。

本文告诉你在机器学习之路上的几个步骤，保你不会迷路，下面开始我们的表演。

第一步：先搞懂什么是机器学习

在闷头学习机器学习之前，最好先把什么是机器学习搞清楚，了解机器学习的基本概念。

简单来说，机器学习就是教电脑怎样从数据中学习，然后做出决策或预测。对于真正的机器学习来说，电脑必须在没有明确编程的情况下能够学习识别模型。

机器学习属于计算机科学与统计学的交叉学科，在多个领域会以不同的面目出现，比如你应该听过这些名词：数据科学、大数据、人工智能、预测型分析、计算机统计、数据挖掘······

虽然机器学习和这些领域有很多重叠的地方，但也不能将它们混淆。例如，机器学习是数据科学中的一种工具，也能用于处理大数据。

机器学习自身也分为多个类型，比如监督式学习、非监督式学习、增强学习等等。例如：

邮件运营商将垃圾广告信息分类至垃圾箱，应用的是机器学习中的监督式学习；电商公司通过分析消费数据将消费者进行分类，应用的是机器学习中的非监督式学习；而无人驾驶汽车中的电脑合摄像头与道路及其它车辆交互、学习如何导航，就是用到了增强学习。

想了解机器学习的入门知识，可以看看一些网络课程。对于想对机器学习领域的重点慨念有个基础的了解的人来说，吴恩达教授的机器学习入门课程绝对必看：

https://www./learn/machine-learning

以及“无人车之父” Sebastian Thrun 的《机器学习入门》课程，对机器学习进行了详细介绍，并辅以大量的编程操作帮助你巩固所学内容：

https://cn./course/intro-to-machine-learning--ud120

此外，Sebastian 在优达学城上还开设了一本《人工智能入门》课程，讲解人工智能领域的基本原理以及相关应用比如机器人、计算机视觉和自然语言处理等：

https://cn./course/intro-to-artificial-intelligence--cs271

当然也少不了集智君整理制作的免费专栏，在这里你可以免去安装环境的烦恼，直接投入简单地机器学习训练中来：

边看边练的简明机器学习教程 Part I - 集智专栏

这些课程都是免费的哦！

大概了解机器学习后，我们就来到知识准备阶段了。

第二步：预备知识

如果没有基本的知识储备，机器学习的确看起来很吓人。要学习机器学习，你不必是专业的数学人才，或者程序员大牛，但你确实需要掌握这些方面的核心技能。

好消息是，一旦完成预备知识，剩下的部分就相当容易啦。实际上，机器学习基本就是将统计学和计算机科学中的概念应用在数据上。

这一步的基本任务就是保证自己在编程和统计学知识上别掉队。

2-1：用于数据科学中的Python编程

如果不懂编程，是没法使用机器学习的。幸好，这里有份免费教程，教你如何学习应用于数据科学中的Python语言：

https:///learn-python-for-data-science

注：景略集智再补充三个资源：

[Python入门] 01 基本法则 - 集智专栏：

https:///blog/post/pyintro01

从零学习数据科学中Python的完全指南：

https://www./blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/

以及40多个Python学习资源的汇总文章：

https://www./community/tutorials/python-statistics-data-science

2-2：用于数据科学的统计学知识

了解统计学知识，特别是贝叶斯概率，对于许多机器学习算法来说都是基本的要求。

这里有份学习数据学习中统计学知识的教程：

https:///learn-statistics-for-data-science

2-3：需要学习的数学知识

研究机器学习算法需要一定的线性代数和多元微积分知识作为基础。点这里，获取一份免费学习教程：

https:///learn-math-for-data-science

第三步：开启“海绵模式”，学习尽可能多的原理知识

所谓“海绵模式”，就是像海绵吸水一样，尽可能多地吸收机器学习的原理和知识，这一步和第一步有些相似，但不同的是，第一步是对机器学习有个初步了解，而这一步是要掌握相关原理知识。

可能有些同学会想：我又不想做基础研究，干嘛要掌握这些原理，只要会用机器学习工具包不就行了吗？

有这个疑问也很正常，但是对于任何想将机器学习应用在工作中的人来说，学习机器学习的基础知识非常重要。比如你在应用机器学习中可能会遇到这些问题：

数据收集是个非常耗时耗力的过程。你需要考虑：我需要收集什么类型的数据？我需要多少数据？等此类的问题。
数据假设和预处理。不同的算法需要对输入数据进行不同的假设。我该怎样预处理我的数据？我的模型对缺失的数据可靠吗?
解释模型结果。说机器学习就是“黑箱”的观点明显是错误的。没错，不是所有的模型结果能直接判读，但你需要能够判断模型的状况，进而完善它们。我怎么确定模型是过度拟合还是不充分拟合？模型还有多少改进空间？
优化和调试模型。很少有人刚开始就得到一个最佳模型，你需要了解不同参数之间的细微差别和正则化方法。如果我的模型过度拟合，该怎么修正？我应该将几个模型组合在一起吗？

要想在机器学习研究中解答这些问题，掌握机器学习的知识原理必不可少。这里推荐两个世界级的机器学习课程，一定会让你受益良多：

哈佛大学的机器学习课程，让你了解从数据收集到数据分析的整个流程：