配色: 字号:
第七章 聚类分析
2020-03-17 | 阅:  转:  |  分享 
  
第七章聚类分析§7.1聚类分析方法一、基本思想根据一批样品的多个观测指标,具体找出一些能够度量样品或指标间相似
程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品聚为一类。关系密切的聚为一个小的分类单位,关系疏远的聚为
一个大的分类单位,直到把所有样品或指标都聚类完毕,这样就可以形成一个由小到大的分类系统。聚类分析分类:按聚类变量分为样品
聚类(Q聚类)和指标聚类(R聚类);按聚类方法分为系统聚类和动态聚类二、相似性测度1、对样品进行聚类时,相似性一般用距离
来衡量:(1)绝对值距离(2)欧氏距离(欧几里得距离)(3)平方欧氏距离(4)切比雪夫距离(5)闵可夫斯
基距离2、对指标进行聚类时,相似性通常根据相关系数或某种关联性来决定(1)夹角余弦(2)皮尔逊相关系数(简单相
关系数)§7.2系统聚类法一、基本思想系统聚类法分类:聚集法和分解法。聚集法:首先将每个个体各自看成一群
,将最相似的两个群合并,重新计算群间距离,再将最相似的两群合并,每步减少一群,直至所有个体聚为一群为止。分解法:首先将所有
个体看成一群,将最不相似的个体分成两群,每步增加一群,直至所有个体各自成为一群。二、群间距离的定义1、最短距离法
将两变量间的距离定义为一个群中所有个体与另一个群中的所有个体距离最小者。设为群中的任
一个体,为群中的任一个体,表示个体与间的距离,表示群与群间的距离,则
最短距离法把两群间距离定义为:设类合并成一个新类记为,则任一类
的距离为最短距离法进行聚类分析的步骤如下:(1)定义样品间距离,计算样品的两两距离,得一距离阵记为,
开始每一个样品即为一类,显然这时(2)找出距离最小元素,设为,则将合并成一个新类,记为
,即(3)按类间距离计算新类与其他类的距离(4)重复(2)(3)步,直到所有元素并成一类。如果
某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。例7.1设有六个样品,每个只测量一个指标,分别是1,
2,5,7,9,10,试用最短距离法将它们分类。解:(1)样品采用绝对值距离,计算样品间的距离阵(2)中最小的
元素是D12=D56=1,于是将G1和G2合并成G7,G5和G6合并成G8,并利用计算新类与其它类的距离得到距离
阵(3)中最小的元素是D34=D48=2,于是将G4和G3合并,又与G8合并,因此G3、G4、G8合并成一个新类G9
,并利用计算新类与其它类的距离得到距离阵(4)最后将G7和G9合并成G10,这时六个样品聚为一类,过程终
止。2、最长距离法将两变量间的距离定义为一个群中所有个体与另一群中的所有个体间距离最大者,即:注:最
长距离法和最小距离法的聚类步骤完全一样3、类平均法将类间的距离平方定义为两类元素两两之间距离平方的平均数,即
为:设聚类的某一步将合并为,则任一类的距离为:聚类方法同上4、重心
法将变量间的距离定义为两群重心间的距离(群的重心为该群的均值)重心法要求用欧氏距离,每聚一次类
,都要重新计算重心。设分别有样品个,其重心分别为
,则之间的距离为设将合并为,则内的样品个数为
,它的重心是,类的重心是
,则与新类的距离为:例7.2针对例7.1的数据,试用重心法将它们聚类。解:(1)样品采用欧几里得距
离,计算样品间的平方距离阵(2)中最小的元素是,于是将合并
成,合并成,利用距离公式计算新类与其它类之间的距离得到距离阵其中:(3)在
中最小值是,则合并成一个新类,与其它类的距离阵(4)在中最小值
是,则合并一个新类,其与其它类的距离阵(5)最后将
合并成,这时所有的六个样品聚为一类,其过程终止。6、离差平方和法利用方差分析的思想,“好”的聚类
法是使群内差异尽量小,而群间差异尽量大,即类内的离差平方和尽量小,类间的平方和尽量大。当类数固定时,使整个类内离差平方和达
到极小的分类即为最优。要求采用欧氏距离。设将个样品分成类,
用表示中的第个样品,表示中的样品个数,的重心,则的样品离
差平方和为:如果合并成新类,类内离差平方和分别为:它们反
映了各自类内样品的分散程度,如果这两类相距较近,则合并后所增加的离散平方和
应较小;否则,应较大。于是定义之间的距离平方距离为:其中则类间距离为:
这种系统聚类法称为离差平方和法或ward方法。注:系统聚类法要求分类方法准确,一个个体一旦划入某一群就不能改变了,并且它
在聚类过程中需要存储距离矩阵,当聚类变量太多时,占内存太多,速度较慢。例7.3抽取一个基于不同汽车的样本,即每个特定的汽
车是从各个制造商分别提供的汽车型号中随机选取的。现在想研究各个独立的汽车是否可以归成更有意义的类别。每辆汽车包括以下几项指标
:汽车的近似市场价格、汽车的加速度、汽车的刹车能力、汽车行驶性能指数、汽车耗油量
。§7.3K-均值聚类法动态聚类法中最常用的就是K-均值聚类法,这种方法首先根据事先确定的类数
确定个初始点,然后将其他个体逐一输入,同时改变凝聚点,不断迭代,直到找到合理的分群为止。一般,当两次迭代间的结果差不多
或达到规定的迭代次数时,迭代停止。K均值法是麦奎因提出的,这种算法的基本思想是将每一个样品分配给最近中心
(均值)的类中,步骤如下:(1)将所有的样品分成K个初始类;(2)通过欧几里得距离将某个样品划入离中心最近的类中,并对获得样
品与失去样品的类,重新计算中心坐标;(3)重复步骤(2),直到所有的样品不能再分配时为止。K均值法和系统聚
类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:系统聚类对不同的类数产生一系列的聚类结果,而
K均值法只能产生指定类数的聚类结果。例7.5假定我们对A,B,C,D四个样品分别测量两个变量得到
结果如表所示,试将该样品聚成两类。第一步:按要求取,为了实施均值法聚类,将这些样品随意分成两类,比如(
A,B)和(C,D),然后计算这两个聚类的中心坐标,其中,(A,B)类的
…第二步:计算某个样品到各类中心的欧几里得平方和,然后将该样品分配给最近的一类。对于样品有变动的类,重新计算它们的中
心坐标,为下一步聚类做准备。计算对A到两个类的平方距离:由于A到(A,B)的距离小于到(C,D)的距离,因此
A不需重新分配。计算B到两类的平方距离:由于B到(A,B)的距离大于到(C,D)的距离,
因此B要重新分配给(C,D)类,得到新的聚类是(A)和(B,C,D)。更新中心坐标第三步:再次检验每个样品,以决
定是否需要重新分类。计算个样品到中心的距离平方,得:到现在为止,每个样品都已分配给距离中心最近的类,因此聚
类过程结束。最终得到K=2的聚类结果是A独自成一类,B、C、D聚成一类。例7.6我国各地区2003年三次产业值数据如
下,试根据三次产业值利用K均值法对我国31个省、自治区和直辖市进行聚类分析。-2-3D-21C1-1B3
5AX2X1变量样品-2-1(C,D)22(A,B)中心坐标聚类-1-1(B,C,D)35
(A)中心坐标聚类55452(B,C,D)8941400(A)DCBA样品到中心的距离平方聚类
013589G602478G50256G4034G301G20G1
G6G5G4G3G2G10247G8025G403G30G7G8G4G3G703G90G7G9G7019256481G604164964G5042536G40916G301G20G1G6G5G4G3G2G106.2520.2564G80430.25G4012.25G30G7G8G4G3G7012.564G8020.25G90G7G8G9G7039.0625G100G7G10G7
献花(0)
+1
(本文系风堇旧曾谙首藏)