1、算法介绍: 聚类算法可以被分为那么几种,比如基于划分方法的、基于层次方法的、基于密度方法 的、基于网格方法的、基于模型方法的;K-mediods算法就是基于划分方法的一种聚类算法,确切的说,是对K-means算法的一种改进算法。 2、算法描述: a) 首先随机选取一组聚类样本作为中心点集 b) 每个中心点对应一个簇c) 计算各样本点到各个中心点的距离(如欧几里德距离),将样本点放入距离中心 点最短的那个簇中 d) 计算各簇中,距簇内各样本点距离的绝度误差最小的点,作为新的中心点 e) 如果新的中心点集与原中心点集相同,算法终止;如果新的中心点集与原中心点 集不完全相同,返回b) 3、算法优缺点: @、当存在噪音和孤立点时, PAM 比 k-means方法更健壮. 这是因为中心点不象平均值 那么容易被极端数据影响 @、PAM对于小数据集工作得很好, 但不能很好地用于大数据集 @、每次迭代O(k(n-k)2),其中n是数据对象数目,k是聚类数4、算法举例: a) 设有(A,B,C,D,E,F)一组样本 b) 随机选择B、E为中心点c)计算D和F到B的距离最近,A和C到E的距离最近,则B,D,F为簇X1,A,C,E为簇X2 d) 计算X1发现,D作为中心点的绝对误差最小,X2中依然是E作为中心点绝对误差最 小 e) 重新以D、E作为中心点,重复c)、d)步骤后,不再变换,则簇划分确定。 5、算法区别: 主要区别在于计算的聚类中心上; k_means:聚类中心,是聚类后的每个子类的均值 K_mediods:中心点取的是子类中(某一代表点到各个样本点的距离的均方误差最小的 点),既:子类中的每个样本轮流作为样本中心点,计算这个中心点到所 有样本的距离之和,然后每个样本都轮了一遍中心点后,取均方和最小的 点作为新的中心点,当中心点不再改变时,聚类就完成了 参考:https://blog.csdn.net/u011204487/article/details/51570360
|
|
来自: LARGESTATION > 《机器学习》