什么是无监督学习?无监督学习是机器学习中的一种训练方式/学习方式: 下面通过跟监督学习的对比来理解无监督学习:
简单总结一下: 无监督学习是一种机器学习的训练方式,它本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。 它主要具备3个特点:
这么解释很难理解,下面用一些具体案例来告诉大家无监督学习的一些实际应用场景,通过这些实际场景,大家就能了解无监督学习的价值。 无监督学习的使用场景案例1:发现异常 有很多违法行为都需要'洗钱',这些洗钱行为跟普通用户的行为是不一样的,到底哪里不一样? 如果通过人为去分析是一件成本很高很复杂的事情,我们可以通过这些行为的特征对用户进行分类,就更容易找到那些行为异常的用户,然后再深入分析他们的行为到底哪里不一样,是否属于违法洗钱的范畴。 通过无监督学习,我们可以快速把行为进行分类,虽然我们不知道这些分类意味着什么,但是通过这种分类,可以快速排出正常的用户,更有针对性的对异常行为进行深入分析。 案例2:用户细分 这个对于广告平台很有意义,我们不仅把用户按照性别、年龄、地理位置等维度进行用户细分,还可以通过用户行为对用户进行分类。 通过很多维度的用户细分,广告投放可以更有针对性,效果也会更好。 案例3:推荐系统 大家都听过'啤酒+尿不湿'的故事,这个故事就是根据用户的购买行为来推荐相关的商品的一个例子。 比如大家在淘宝、天猫、京东上逛的时候,总会根据你的浏览行为推荐一些相关的商品,有些商品就是无监督学习通过聚类来推荐出来的。系统会发现一些购买行为相似的用户,推荐这类用户最'喜欢'的商品。 常见的2类无监督学习算法常见的2类算法是:聚类、降维 聚类:简单说就是一种自动分类的方法,在监督学习中,你很清楚每一个分类是什么,但是聚类则不是,你并不清楚聚类后的几个分类每个代表什么意思。 降维:降维看上去很像压缩。这是为了在尽可能保存相关的结构的同时降低数据的复杂度。 「聚类算法」K均值聚类 K均值聚类就是制定分组的数量为K,自动进行分组。 K 均值聚类的步骤如下:
重复第 2 和 3 步,直到每次迭代时重心的位置不再显著变化(即直到该算法收敛)。 其过程如下面的动图: 「聚类算法」层次聚类 如果你不知道应该分为几类,那么层次聚类就比较适合了。层次聚类会构建一个多层嵌套的分类,类似一个树状结构。 层次聚类的步骤如下:
「降维算法」主成分分析 - PCA 主成分分析是把多指标转化为少数几个综合指标。 主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。 变换的步骤:
「降维算法」奇异值分解 - SVD 奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。 了解更多奇异值分解的信息,可以查看维基百科 |
|
来自: nacei > 《大数据与人工智能》