什么是无监督学习？概念、使用场景及常用算法详解

nacei 2019-09-18

展开全文

无监督学习是机器学习领域内的一种学习方式。本文将给大家解释他的基本概念，告诉大家无监督学习可以用用到哪些具体场景中。
最后给大家举例说明2类无监督学习的思维：聚类、降维。以及具体的4种算法。

什么是无监督学习？

无监督学习是机器学习中的一种训练方式/学习方式：

下面通过跟监督学习的对比来理解无监督学习：

简单总结一下：

无监督学习是一种机器学习的训练方式，它本质上是一个统计手段，在没有标签的数据里可以发现潜在的一些结构的一种训练方式。

它主要具备3个特点：

这么解释很难理解，下面用一些具体案例来告诉大家无监督学习的一些实际应用场景，通过这些实际场景，大家就能了解无监督学习的价值。

案例1：发现异常

有很多违法行为都需要'洗钱'，这些洗钱行为跟普通用户的行为是不一样的，到底哪里不一样？

如果通过人为去分析是一件成本很高很复杂的事情，我们可以通过这些行为的特征对用户进行分类，就更容易找到那些行为异常的用户，然后再深入分析他们的行为到底哪里不一样，是否属于违法洗钱的范畴。

通过无监督学习，我们可以快速把行为进行分类，虽然我们不知道这些分类意味着什么，但是通过这种分类，可以快速排出正常的用户，更有针对性的对异常行为进行深入分析。

案例2：用户细分

这个对于广告平台很有意义，我们不仅把用户按照性别、年龄、地理位置等维度进行用户细分，还可以通过用户行为对用户进行分类。

通过很多维度的用户细分，广告投放可以更有针对性，效果也会更好。

案例3：推荐系统

大家都听过'啤酒+尿不湿'的故事，这个故事就是根据用户的购买行为来推荐相关的商品的一个例子。

比如大家在淘宝、天猫、京东上逛的时候，总会根据你的浏览行为推荐一些相关的商品，有些商品就是无监督学习通过聚类来推荐出来的。系统会发现一些购买行为相似的用户，推荐这类用户最'喜欢'的商品。

常见的2类算法是：聚类、降维

聚类：简单说就是一种自动分类的方法，在监督学习中，你很清楚每一个分类是什么，但是聚类则不是，你并不清楚聚类后的几个分类每个代表什么意思。

降维：降维看上去很像压缩。这是为了在尽可能保存相关的结构的同时降低数据的复杂度。

「聚类算法」K均值聚类

K均值聚类就是制定分组的数量为K，自动进行分组。

K 均值聚类的步骤如下：

定义 K 个重心。一开始这些重心是随机的（也有一些更加有效的用于初始化重心的算法）
寻找最近的重心并且更新聚类分配。将每个数据点都分配给这 K 个聚类中的一个。每个数据点都被分配给离它们最近的重心的聚类。这里的「接近程度」的度量是一个超参数——通常是欧几里得距离（Euclidean distance）。
将重心移动到它们的聚类的中心。每个聚类的重心的新位置是通过计算该聚类中所有数据点的平均位置得到的。

重复第 2 和 3 步，直到每次迭代时重心的位置不再显著变化（即直到该算法收敛）。

其过程如下面的动图：

「聚类算法」层次聚类

如果你不知道应该分为几类，那么层次聚类就比较适合了。层次聚类会构建一个多层嵌套的分类，类似一个树状结构。

层次聚类的步骤如下：