【原】数据分析方法，寻找规律的第一步，聚类分析法！第3辑

企业数据化管理 2020-04-29

展开全文

6.3 聚类的步骤

本书的主旨是讲解数据分析的方法和思路，而不是讲解具体的操作。鉴于聚类分析方法的复杂性，下面介绍一下常规的聚类分析过程。

聚类分析包括以下10个步骤。

1．确定聚类的标准变量

在对事物进行聚类时，我们必须要正确地选择分类的变量，变量的选择决定了分类的结果，所以这一步非常关键，如果我们选择错了，则分类的结果就错了。

事物的分类维度与变量必须要与企业的管理目标相结合。所谓的管理目标就是分类的目的。分类的根本目的是认知事物，那么我们认知事物的目的是什么？如果是认知客户，那么我们是为了开发产品、寻找产品存在的缺陷，还是为了提高客户服务的满意度、改善客户管理和服务系统？不同的出发点需要选择不同的路径，即选择看待事物的角度。

如果认知客户的目的是了解客户对产品和服务的看法，从而为产品的研发和服务创新提供新想法，那么在选择聚类变量时，就要从客户的需要以及这些需要背后的驱动要素出发。如果我们的目的是改善客户关系管理体系，那么选择聚类的维度要多从我们与客户接触过程的数据变量出发，例如客户订单、客户投诉、客户行为等。如果是为了评价产品的竞争性、品牌资产在消费者心中的形象，那么我们就应该使用另外一套数据集。不同的变量不是由我们有什么数据来决定，而是由我们需要什么数据来决定。当我们使用现有数据进行分析时，必须要清楚这个数据集能够为我们提供什么。

再次回到RFM模型。如果我们想对客户进行评价找到优质客户，则RFM模型显然是不适用的，因为其所选择的三个维度的变量都是客户与我们的接触点数据，不是客户的自身特征数据。

在确定了维度之后，还需要细分维度的数据来源。有的时候数据本身存在一定的采集难度，有些人就会用一种数据来代替另外一种数据，这其中会隐藏着巨大的问题。例如，如果我们用客户订单的交易额M来替代客户规模或者对客户购买能力的评价指标，就完全错了。

2．标准化事物描述变量

当我们选择变量之后，会发现不同的变量之间使用了不同的数据类型，有的是定性数据，有的是定距数据，还有的是定序数据。那么不同类型的数据如何进行归类和对比呢？即使是同类型的数据，也会不统一。例如一个人的身高用cm（厘米）标识时，基本都在0～200cm范围内，少数会超过200cm，但没有超过300cm的。如果用mm（毫米）标识，那就在0～2000mm范围内；如果用m（米）标识，那就在0～2m范围内。身高是定量数据，可以统一用cm标识，而一个人的血型、性别、学历等数据该如何标准化呢？

一般的数据标准化方法有极值标准化（最大值标准化、最小值标准化）、平均值标准化、方差标准化等，主要的目的就是消除数据之间因度量的差异性所带来的数据计算偏差。

3．评价事物之间的相似性（差异性）如何计算

接着我们需要考虑如何评价两个对象之间的差异性、相似性，或者叫作距离。在二维空间中我们用两个变量之间的直线距离标识两个对象之间的距离，如下图所示。

在三维空间中，两点之间的距离计算方法也类似。点A（x1,y1,z1）与点B（x2,y2,z2）之间的距离是：

以此类推，多维空间中两点之间的距离可以用相似的方式来计算，这是计算两个变量之间差异的标准方法。当然在不同的事物以及情境下，还有更多的差异性的计算方法，例如欧式距离、明氏距离、马氏距离、兰氏距离等，感兴趣的读者可以自行查阅相关文献研究。

4．设计聚类的算法或者程序

算法程序非常重要，它决定着这个算法的效率。当对象数量比较多时，算法就会比较复杂，有可能超过了目前计算机甚至计算机集群的处理能力。

常规的聚类算法叫作“系统聚类”算法。该算法的逻辑如下。

假定我们有n个对象，我们将其看作n个类，每个对象都是一个类。

第一步，先计算所有类之间的距离，然后选择距离最小的两个类聚集为1个类，这个类中包含两个对象，合并后我们就有了n-1个类。

第二步，用第一步的方法计算这n-1个类两两之间的距离（其实只需要计算新合并的类与其他n-2个类之间的距离即可，因为其他类相互之间的距离已经在第一步中计算过了），然后再在这n-1个类中找出最短距离的两个类聚集在一起，由此就会有n-2个类。

第三步，以此类推，直至最后所有的对象都聚集成为1个类为止。这样我们就有了把这n个对象聚集成1个类（所有对象聚集为1类）、2个类、3个类、……n个类（所有对象都是独立的类），共n种分法。

第四步，我们比较这n种分类中，哪一种的聚类特征更好（各个类相互间距离较大，类内对象间距离较小），从而可以推荐出比较好的聚类数量。

这样的算法模型就是系统聚类的算法。当n很大的时候，计算量将非常巨大。所以，后来就衍生出很多变种的方法以节省或者快速获得聚类，包括分裂法（划分法）、基于密度的方法、基于网络的方法、基于模型的方法等。

5．计算类之间的差异性以及保证类与类之间的距离最大化

当两个对象聚集成一个类，这个类与其他的对象之间的距离怎么计算就变得非常重要了。我们聚类的目的就是让类与类之间的距离更远，而让在一个类中的对象之间的距离更近。所以计算类与类之间距离的方法会影响到整个聚类的结果。

类与类之间的距离的计算方法也有很多种。例如最短距离法就是将一个类与另外一个类中各个对象之间的距离最小值作为两个类之间的距离；最大距离法则相反。另外还包括中间距离法、重心法、平均距离法、可变距离法、离差平方和法等。算法不同，得到的聚类也不同，所以只要计算机的处理能力能够支持，就要尽可能多地尝试，然后再详细分析哪种算法更加符合现实需要或者更加有现实意义。

6．聚成多少个类更加合适？不同数量的聚类之间有什么不同

聚类算法本身可以推荐给我们一个比较优化的聚类数量，但具体分成几个类则需要结合商业的需要。

如下图左上角的对象集所示，具体将其分成几个类合适呢？哪一种分类更符合业务需要？这需要从企业的管理目标出发，根据实际业务的需求来设定具体的数量。

对于这种数据集，一般情况下聚类算法推荐的最优聚类数量是两类，如果聚类太简单，则业务可能会需要更细的分类，例如可以分为四类，也可以根据管理能力分为六类。如果算法给我们推荐了太多的聚类数量，例如如果把客户分成上百类，那么在日常工作中根本没法区分类与类之间的差异，也就没有什么意义了。

7．解读聚类后的事物分类以及描述每一个类别

在将对象聚类得出结果后，我们需要对每一类对象进行描述分析，分析这一类对象最典型的共性是什么，从而理解为什么这些对象会被分到一类中，这就是对每一类对象的解读。在解读对象的时候，我们需要仔细识别这些对象的相似性。描述统计分析是一个较好的数据解读方法，它将重点的相似性量化，我们可以只关注重要的要素，从而做出理解和判断。

这一步需要人为解读，需要了解业务。如果不了解业务，则可能无法理解聚类算法给出的类是如何定义的。

8．验证聚类结果并应用到实际工作中

聚类的结果要在实践中检验，要对业务的执行有指导的意义。在商业应用中，经常会对产品、客户、员工进行聚类，这些是典型的应用，其中应用最多的还是对客户的聚类。通过聚类识别出客户之后，我们需要根据每一类客户的特征制定不同的产品开发策略、服务策略、市场营销策略以及促销活动策略，以更好地满足特殊客户的特殊需求，从而让我们的产品和服务更加个性化。当我们根据得出的聚类结果制定了相关的策略并实施之后，此时就需要跟踪产品或者促销策略的适用性，以确认我们的聚类是否精准，我们对客户的理解是否合理，我们的变量选择是否存在偏差等。这些都是通过跟踪数据来验证的。

9．持续在实践中检验，对业务以及效果进行评估

实践是检验真理的唯一标准，这句话在聚类分析方法中非常适用。聚类不是一个一劳永逸的工作，在实际业务执行过程中总会发生很多的变化。如今互联网技术、移动互联网技术和大数据技术对企业的经营模式、业务模式、商业模式都带来很大的冲击，影响着公司不断转型，因此聚类算法也会面临很多的挑战。原来成熟可用的聚类算法模型可能很快就不适用了，因此，对聚类的效果评估必须要紧密跟踪，以确保符合业务的需求。

10．算法的改进和调整

在实际业务执行过程中找到了新的思路后，需要对聚类算法做出调整并不断改进和完善，甚至重新颠覆原有的算法。这样就形成了一个流程的闭环，通过不断地应用和改进，算法会逐步成熟，成为企业商业应用的一个实用型算法，如下图所示。

6.4 有序聚类与时间序列聚类

一般对象的聚类是假设对象之间没有顺序，可以随意打乱。但有些事物不是完全离散的，而是按照一定顺序排列的，因此我们在聚类时就不能打乱它们的顺序。

例如在对地质勘探的数据进行聚类分析时，要把从地下钻井机采集到的每隔1m的数据进行罗列，这时需要对这个按照不同距离采集上来的数据进行分层分析，用聚类的方法将相似的归为一类，代表在地下不同层的情况，这时我们就不能打乱数据的顺序，而是要考虑在同一个数据序列上的区分。下图是不同地质分层变化的情况示意图。

（不同地质分层变化的情况示意图）

时间序列上的数据聚类也是典型的有序数据聚类问题。例如我们在分析员工的成长阶段、机器和设备的生命周期中的表现分段等，都会用到具有时间节点的数据，这个数据是按照时间先后顺序排列的，在对数据进行聚类时，不能打乱其中的顺序。

公司的发展历史阶段性划分、行业的发展阶段划分、技术的发展历程阶段划分等都可以采用聚类的方法，但时间顺序是不能打乱的，只能通过上一个时间点与下一个时间点的差异性来决定是否分成不同的阶段。下图是纳斯达克综合指数历年变化。

（纳斯达克综合指数历年变化）

如果只有单一维度的变量，则可以把该变量放到图形化的时间轴上，从而可以看到事物的阶段性特征。当描述的变量非常多时，或者事物本身就比较复杂时，就需要利用聚类的方法来划分事物发展的历史阶段。例如，可以对中国股市20年的发展进行分段。而在描述一个股票市场的阶段划分时，可以将综合指数、交易量、活跃股票数、涨跌幅、机构与个人投资比例等变量都纳入到聚类分析的变量中，这个时候的聚类分析方法就是有序聚类方法了。

对企业成长历程的分析也可以通过有序聚类来实现。一般企业往往是以其领导人、企业业务规模增长、企业业务创新、市场区域拓展、经营模式变革等方面来自我划分的。苹果公司的成长历程可以根据乔布斯的任期来划分，也可以根据其颠覆性的产品推出时间来划分，还可以以业务量的增长来划分。不同的划分方法目的也不同。我们在研究企业发展规律的时候，可以根据企业所公布的信息，将采集到的不同的数据资料通过聚类来划分。

全文摘自《企业经营数据分析-思路、方法、应用与工具》赵兴峰著

该文转载已取得作者认可

下期内容更实战！