分享

K-mediods聚类算法K_means的改进

 LARGESTATION 2018-04-09
1、算法介绍:    
聚类算法可以被分为那么几种,比如基于划分方法的、基于层次方法的、基于密度方法 的、基于网格方法的、基于模型方法的;K-mediods算法就是基于划分方法的一种聚类算法,确切的说,是对K-means算法的一种改进算法。
2、算法描述:
a) 首先随机选取一组聚类样本作为中心点集
b) 每个中心点对应一个簇
c) 计算各样本点到各个中心点的距离(如欧几里德距离),将样本点放入距离中心 点最短的那个簇中
d) 计算各簇中,距簇内各样本点距离的绝度误差最小的点,作为新的中心点
e) 如果新的中心点集与原中心点集相同,算法终止;如果新的中心点集与原中心点 集不完全相同,返回b)
3、算法优缺点:
     @、当存在噪音和孤立点时, PAM 比 k-means方法更健壮. 这是因为中心点不象平均值 那么容易被极端数据影响
@、PAM对于小数据集工作得很好, 但不能很好地用于大数据集
@、每次迭代O(k(n-k)2),其中n是数据对象数目,k是聚类数
4、算法举例
a) 设有(A,B,C,D,E,F)一组样本
     b) 随机选择B、E为中心点
c)计算D和F到B的距离最近,A和C到E的距离最近,则B,D,F为簇X1,A,C,E为簇X2
d) 计算X1发现,D作为中心点的绝对误差最小,X2中依然是E作为中心点绝对误差最
e) 重新以D、E作为中心点,重复c)、d)步骤后,不再变换,则簇划分确定。
5、算法区别:
主要区别在于计算的聚类中心上;
k_means:聚类中心,是聚类后的每个子类的均值
K_mediods:中心点取的是子类中(某一代表点到各个样本点的距离的均方误差最小的   点),既:子类中的每个样本轮流作为样本中心点,计算这个中心点到所   有样本的距离之和,然后每个样本都轮了一遍中心点后,取均方和最小的   点作为新的中心点,当中心点不再改变时,聚类就完成了

参考:https://blog.csdn.net/u011204487/article/details/51570360

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多