谷歌机器学习速成课程系列一

太极混元天尊 2018-04-27

展开全文

第一课机器学习简介

课程主讲是谷歌机器学习技术总监，他主要是介绍他在2001年加入谷歌之后致力于机器学习技术的研究与应用，他很有预见性提出要通过机器学习手段解读数据内隐藏的潜在关系与含义，提到了课程目标是帮助学习者在机器学习道路上顺利前行。软件工程师学习机器学习可以在一下三个方面能力获得提升:1.提供可缩短编程时间的新工程应用2.自定义用户产品，基于机器学习算法的程序，迁移能力更强3.解决以前人工无法判别与识别的问题

另外学习机器学习课程，还可以帮助软件工程师改变思维方式，从数学和软件工程思考方式转换到自然科学的思考方式，像科学家一样思考、愉快的探索其中奥秘。

第二课框架处理

课程目标有两个

复习机器学习的基本术语
了解机器学习的各种用途

课程老师来自谷歌技术团队，介绍了什么是监督式机器学习，在监督式机器学习中如何创建模型与输入信息，对以前从未见过的数据做出有用的预测。当训练模型时候，会为其提供标签，关于什么标签，解释如下：

标签

是指我们要预测真实事物，以垃圾邮件过滤为例，标签可以是垃圾邮件或者非垃圾邮件等内容，它是我们试图预测的目标，

特征

是我们表示数据的方式，以垃圾邮件过滤为例，特征可以从电子邮件中提取，可以是关键字、收件人、发件人、各种路由或者标题信息等多个维度信息，以及任何可以从电子邮件中提取并提供给机器学习系统的信息。

样本

样本是一份数据，以垃圾邮件过滤为例，它可以是一份邮件，

有标签样本

具有特征信息比如关键字、路由信息、收发件人等、具有标签信息比如垃圾邮件或者非垃圾邮件等等。

无标签样本

具有特征信息，但是我们不知道它是否是垃圾邮件，需要对其做预测分类

模型

可将样本映射到预测标签，模型有内部参数得到，这些参数通过学习得到。

回归与分类

回归模型可预测连续值。例如，回归模型做出的预测可回答如下问题：

加利福尼亚州一栋房产的价值是多少？
用户点击此广告的概率是多少？

分类模型可预测离散值。例如，分类模型做出的预测可回答如下问题：

某个指定电子邮件是垃圾邮件还是非垃圾邮件？
这是一张狗、猫还是仓鼠图片？

第三课深入了解机器学习

复杂的模型与数据有很多，研究方法也有很多，但是我们从最简单、最熟悉的方法入手这能帮助我们了解更多复杂的方法，让我们以数据为基础，用第一个小模型练习一下，小型数据集包含房子面积与价格，房子的面积作数据做为X轴、房子的价格是Y轴，我们尝试用线性回归学习，生成一个模型，然后用它根据房子面积来预测价格，阐述了回归问题中损失计算、针对单个样本L2误差，在训练过程中预测值与真实值差距越大，平方误差越大，在训练过程中，误差是整个样本真实值与预测值之间的误差，训练是要减小整体误差，而不是某一个样本的误差。