K-mediods聚类算法K_means的改进

LARGESTATION 2018-04-09

展开全文

1、算法介绍：

聚类算法可以被分为那么几种，比如基于划分方法的、基于层次方法的、基于密度方法的、基于网格方法的、基于模型方法的；K-mediods算法就是基于划分方法的一种聚类算法，确切的说，是对K-means算法的一种改进算法。

2、算法描述：

a) 首先随机选取一组聚类样本作为中心点集

b) 每个中心点对应一个簇
c) 计算各样本点到各个中心点的距离（如欧几里德距离），将样本点放入距离中心点最短的那个簇中
d) 计算各簇中，距簇内各样本点距离的绝度误差最小的点，作为新的中心点
e) 如果新的中心点集与原中心点集相同，算法终止；如果新的中心点集与原中心点集不完全相同，返回b)

3、算法优缺点：

@、当存在噪音和孤立点时, PAM 比 k-means方法更健壮. 这是因为中心点不象平均值那么容易被极端数据影响

@、PAM对于小数据集工作得很好, 但不能很好地用于大数据集

@、每次迭代O(k(n-k)²)，其中n是数据对象数目,k是聚类数

4、算法举例：

a) 设有(A,B,C,D,E,F)一组样本

b) 随机选择B、E为中心点
c)计算D和F到B的距离最近，A和C到E的距离最近，则B,D,F为簇X₁，A,C,E为簇X₂
d) 计算X₁发现，D作为中心点的绝对误差最小，X₂中依然是E作为中心点绝对误差最小
e）重新以D、E作为中心点，重复c)、d)步骤后，不再变换，则簇划分确定。

5、算法区别：

主要区别在于计算的聚类中心上；

k_means：聚类中心，是聚类后的每个子类的均值

K_mediods：中心点取的是子类中（某一代表点到各个样本点的距离的均方误差最小的点），既：子类中的每个样本轮流作为样本中心点，计算这个中心点到所有样本的距离之和，然后每个样本都轮了一遍中心点后，取均方和最小的点作为新的中心点，当中心点不再改变时，聚类就完成了

参考：https://blog.csdn.net/u011204487/article/details/51570360

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： LARGESTATION > 《机器学习》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

LARGESTATION

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换