基于图的聚类分析研究—张涛 1. 典型聚类算法1.1 基于划分的方法代表:kmeans算法·指定k个聚类中心 1.2 基于层次的方法代表:CURE算法·每个样本作为单独的一个类别 1.3 基于网格的方法代表:STING算法·将数据集合X划分多层网格结构,从某一层开始计算 1.4 基于密度的方法代表:DBSCAN算法·输入数据集合X,随机选取一点,并找出这个点的所有高密度可达点 1.5 神经网络的方法代表:SOM算法·数据集合 1.6 基于图的聚类方法代表:谱聚类算法·计算邻接矩阵 2. 聚类算法的评价指标一个好的聚类方法可以产生高品质簇,是的簇内相似度高,簇间相似度低。一般来说,评估聚类质量有两个标准,内部质量评价指标和外部评价指标。 2.1 内部质量评价标准内部评价指标是利用数据集的属性特征来评价聚类算法的优劣。通过计算总体的相似度,簇间平均相似度或簇内平均相似度来评价聚类质量。评价聚类效果的高低通常使用聚类的有效性指标,所以目前的检验聚类的有效性指标主要是通过簇间距离和簇内距离来衡量。这类指标常用的有CH(Calinski-Harabasz)指标等 CH指标CH指标定义为: 簇的凝聚度簇内点对的平均距离反映了簇的凝聚度,一般使用组内误差平方(SSE)表示: 簇的邻近度簇的邻近度用组间平方和(SSB)表示,即簇的质心 2.2 外部质量评价标准外部质量评价指标是基于已知分类标签数据集进行评价的,这样可以将原有标签数据与聚类输出结果进行对比。外部质量评价指标的理想聚类结果是:具有不同类标签的数据聚合到不同的簇中,具有相同类标签的数据聚合相同的簇中。外部质量评价准则通常使用熵,纯度等指标进行度量。 熵:簇内包含单个类对象的一种度量。对于每一个簇,首先计算数据的类分布,即对于簇 纯度:簇内包含单个类对象的另外一种度量。簇 |
|