多元统计分析介绍

千里 2006-09-25

展开全文

多元统计分析介绍

1.因子分析(Factor Analysis)

        因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系，即将相关比较密切的几个变量归在同一类中，每一类变量就成为一个因子（之所以称其为因子，是因为它是不可观测的，即不是具体的变量），以较少的几个因子反映原资料的大部分信息。
      运用这种研究技术，我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些，以及它们的影响力（权重）运用这种研究技术，我们还可以为市场细分做前期分析。

2.主成分分析

        主成分分析主要是作为一种探索性的技术，在分析者进行多元数据分析之前，用主成分分析来分析数据，让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用：a，了解数据。(screening the data),b,和cluster analysis一起使用，c，和判别分析一起使用，比如当变量很多，个案数不多，直接使用判别分析可能无解，这时候可以使用主成份发对变量简化。（reduce dimensionality）d,在多元回归中，主成分分析可以帮助判断是否存在共线性（条件指数），还可以用来处理共线性。

******************************************************************************************************************
主成分分析和因子分析的区别

1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成个变量的线性组合。

2、主成分分析的重点在于解释个变量的总方差，而因子分析则把重点放在解释各变量之间的协方差。

3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子（specific factor）之间也不相关，共同因子和特殊因子之间也不相关。

4、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，的主成分一般是独特的；而因子分析中因子不是独特的，可以旋转得到不同的因子。

5、在因子分析中，因子个数需要分析者指定（spss根据一定的条件自动设定，只要是特征值大于1的因子进入分析），而指定的因子数量不同而结果不同。在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。

      和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。大致说来，当需要寻找潜在的因子，并对这些因子进行解释的时候，更加倾向于使用因子分析，并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。当然，这中情况也可以使用因子得分做到。所以这中区分不是绝对的。

      总得来说，主成分分析主要是作为一种探索性的技术，在分析者进行多元数据分析之前，用主成分分析来分析数据，让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用：a，了解数据。(screening the data),b,和cluster analysis一起使用，c，和判别分析一起使用，比如当变量很多，个案数不多，直接使用判别分析可能无解，这时候可以使用主成份发对变量简化。（reduce dimensionality）d,在多元回归中，主成分分析可以帮助判断是否存在共线性（条件指数），还可以用来处理共线性。

        在算法上，主成分分析和因子分析很类似，不过，在因子分析中所采用的协方差矩阵的对角元素不在是变量的方差，而是和变量对应的共同度（变量方差中被各因子所解释的部分）。
******************************************************************************************************************

3.聚类分析(Cluster Analysis)

　　聚类分析是直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类的分析技术。
      在市场研究领域，聚类分析主要应用方面是帮助我们寻找目标消费群体，运用这项研究技术，我们可以划分出产品的细分市场，并且可以描述出各细分市场的人群特征，以便于客户可以有针对性的对目标消费群体施加影响，合理地开展工作。

4.判别分析(Discriminatory　Analysis)

　　判别分析(Discriminatory　Analysis)的任务是根据已掌握的１批分类明确的样品，建立较好的判别函数，使产生错判的事例最少，进而对给定的１个新样品，判断它来自哪个总体。
　　根据资料的性质，分为定性资料的判别分析和定量资料的判别分析；采用不同的判别准则，又有费歇、贝叶斯、距离等判别方法。
　　费歇（FISHER）判别思想是投影，使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是：使每一类内的投影值所形成的类内离差尽可能小，而不同类间的投影值所形成的类间离差尽可能大。
　　贝叶斯（BAYES）判别思想是根据先验概率求出后验概率，并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度；所谓后验概率，就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。
　　距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式，将各样品数据逐一代入计算，得出各样品与各母体之间的距离值，判样品属于距离值最小的那个母体。

5.对应分析(Correspondence Analysis)

　　对应分析是一种用来研究变量与变量之间联系紧密程度的研究技术。
运用这种研究技术，我们可以获取有关消费者对产品品牌定位方面的图形，从而帮助您及时调整营销策略，以便使产品品牌在消费者中能树立起正确的形象。
这种研究技术还可以用于检验广告或市场推广活动的效果，我们可以通过对比广告播出前或市场推广活动前与广告播出后或市场推广活动后消费者对产品的不同认知图来看出广告或市场推广活动是否成功的向消费者传达了需要传达的信息。

6.典型相关分析

　　典型相关分析是分析两组随机变量间线性密切程度的统计方法，是两变量间线性相关分析的拓广。各组随机变量中既可有定量随机变量，也可有定性随机变量(分析时须F6说明为定性变量)。本法还可以用于分析高维列联表各边际变量的线性关系。

******************************************************************************************************************
注意：

1．严格地说，一个典型相关系数描述的只是一对典型变量之间的相关，而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的相关形式。

2．典型相关模型的基本假设和数据要求

　　要求两组变量之间为线性关系，即每对典型变量之间为线性关系；

　　每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系，可先线性化：如经济水平和收入水平与其他一些社会发展水之间并不是线性关系，可先取对数。即log经济水平，log收入水平。

3．典型相关模型的基本假设和数据要求

　　所有观测变量为定量数据。同时也可将定性数据按照一定形式设为虚拟变量后，再放入典型相关模型中进行分析。
******************************************************************************************************************

7.多维尺度分析(Multi-dimension Analysis)

　　多维尺度分析(Multi-dimension Analysis) 是市场研究的一种有力手段，它可以通过低维空间（通常是二维空间）展示多个研究对象（比如品牌）之间的联系，利用平面距离来反映研究对象之间的相似程度。由于多维尺度分析法通常是基于研究对象之间的相似性（距离）的，只要获得了两个研究对象之间的距离矩阵，我们就可以通过相应统计软件做出他们的相似性知觉图。

　　在实际应用中，距离矩阵的获得主要有两种方法：一种是采用直接的相似性评价，先所有评价对象进行两两组合，然后要求被访者所有的这些组合间进行直接相似性评价，这种方法我们称之为直接评价法；另一种为间接评价法，由研究人员根据事先经验，找出影响人们评价研究对象相似性的主要属性，然后对每个研究对象，让被访者对这些属性进行逐一评价，最后将所有属性作为多维空间的坐标，通过距离变换计算对象之间的距离。

******************************************************************************************************************　　
　　多维尺度分析的主要思路是利用对被访者对研究对象的分组，来反映被访者对研究对象相似性的感知，这种方法具有一定直观合理性。同时该方法实施方便，调查中被访者负担较小，很容易得到理解接受。当然，该方法的不足之处是牺牲了个体距离矩阵，由于每个被访者个体的距离矩阵只包含1与0两种取值，相对较为粗糙，个体距离矩阵的分析显得比较勉强。但这一点是完全可以接受的，因为对大多数研究而言，我们并不需要知道每一个体的空间知觉图。
******************************************************************************************************************

******************************************************************************************************************
　　多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支。在自然科学和社会科学的许多学科中，研究者都有可能需要分析处理有多个变量的数据的问题。能否从表面上看起来杂乱无章的数据中发现和提炼出规律性的结论，不仅对所研究的专业领域要有很好的训练，而且要掌握必要的统计分析工具。对实际领域中的研究者和高等院校的研究生来说，要学习掌握多元统计分析的各种模型和方法，手头有一本好的、有长久价值的参考书是非常必要的。这样一本书应该满足以下条件：首先，它应该是“浅入深出”的，也就是说，既可供初学者入门，又能使有较深基础的人受益。其次，它应该是既侧重于应用，又兼顾必要的推理论证，使学习者既能学到“如何”做，而且在一定程度上了解“为什么”这样做。最后，它应该是内涵丰富、全面的，不仅要基本包括各种在实际中常用的多元统计分析方法，而且还要对现代统计学的最新思想和进展有所介绍、交代。
******************************************************************************************************************

******************************************************************************************************************
因子分析

　　主成分分析通过线性组合将原变量综合成几个主成分，用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中，某些变量间往往存在相关性。是什么原因使变量间有关联呢？是否存在不能直接观测到的、但影响可观测变量变化的公共因子？因子分析(Factor Analysis)就是寻找这些公共因子的模型分析方法，它是在主成分的基础上构筑若干意义较为明确的公因子，以它们为框架分解原变量，以此考察原变量间的联系与区别。

　　例如，随着年龄的增长，儿童的身高、体重会随着变化，具有一定的相关性，身高和体重之间为何会有相关性呢？因为存在着一个同时支配或影响着身高与体重的生长因子。那么，我们能否通过对多个变量的相关系数矩阵的研究，找出同时影响或支配所有变量的共性因子呢？因子分析就是从大量的数据中“由表及里”、“去粗取精”，寻找影响或支配变量的多变量统计方法。

　　可以说，因子分析是主成分分析的推广，也是一种把多个变量化为少数几个综合变量的多变量分析方法，其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。

　　因子分析主要用于：1、减少分析变量个数；2、通过对变量间相关关系探测，将原始变量进行分类。即将相关性高的变量分为一组，用共性因子代替该组变量。

1. 因子分析模型

　　因子分析法是从研究变量内部相关的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类，将相关性较高，即联系比较紧密的分在同一类中，而不同类变量之间的相关性则较低，那么每一类变量实际上就代表了一个基本结构，即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

　　因子分析模型描述如下：

（1）X = (x1，x2，…，xp)￠是可观测随机向量，均值向量Ｅ(X)=0，协方差阵Cov(X)=∑，且协方差阵∑与相关矩阵Ｒ相等（只要将变量标准化即可实现）。

（2）F = (F1，F2，…，Fm)￠（ｍ<ｐ）是不可测的向量，其均值向量Ｅ(F)=0，协方差矩阵Cov(F) =Ｉ，即向量的各分量是相互独立的。

（3）e = (e1，e2，…，ep)￠与Ｆ相互独立,且Ｅ(e)=0, e的协方差阵∑是对角阵，即各分量e之间是相互独立的，则模型：

　　x1 = a11F1+ a12F2 +…+a1mFm + e1

　　x2 = a21F1+a22F2 +…+a2mFm + e2

　　………

　　xp = ap1F1+ ap2F2 +…+apmFm + ep

　　称为因子分析模型，由于该模型是针对变量进行的，各因子又是正交的，所以也称为R型正交因子模型。

　　其矩阵形式为: x =AF + e .

　　其中：

　　x=，A=，F=，e=

　　这里，

（1）m ￡ p；

（2）Cov(F,e)=0，即F和e是不相关的；

（3）D(F) = Im ，即F1,F2,…,Fm不相关且方差均为1；

　　D(e)=，即e1,e2,…,ep不相关，且方差不同。

　　我们把F称为X的公共因子或潜因子，矩阵A称为因子载荷矩阵，e 称为X的特殊因子。

　　A = (aij)，aij为因子载荷。数学上可以证明，因子载荷aij就是第i变量与第j因子的相关系数，反映了第i变量在第j因子上的重要性。

2. 模型的统计意义

　　模型中F1，F2，…，Fm叫做主因子或公共因子，它们是在各个原观测变量的表达式中都共同出现的因子，是相互独立的不可观测的理论变量。公共因子的含义，必须结合具体问题的实际意义而定。e1，e2，…，ep叫做特殊因子，是向量x的分量xi(i=1,2,…,p)所特有的因子，各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。模型中载荷矩阵Ａ中的元素(aij)是为因子载荷。因子载荷aij是xi与Fj的协方差，也是xi与Fj的相关系数，它表示xi依赖Fj的程度。可将aij看作第i个变量在第j公共因子上的权，aij的绝对值越大(|aij|￡1)，表明xi与Fj的相依程度越大，或称公共因子Fj对于xi的载荷量越大。为了得到因子分析结果的经济解释，因子载荷矩阵Ａ中有两个统计量十分重要，即变量共同度和公共因子的方差贡献。

　　因子载荷矩阵Ａ中第i行元素之平方和记为hi2，称为变量xi的共同度。它是全部公共因子对xi的方差所做出的贡献，反映了全部公共因子对变量xi的影响。hi2大表明x的第i个分量xi对于Ｆ的每一分量F1，F2，…，Fm的共同依赖程度大。

　　将因子载荷矩阵Ａ的第j列( j =1,2,…,m)的各元素的平方和记为gj2，称为公共因子Fj对x的方差贡献。gj2就表示第j个公共因子Fj对于x的每一分量xi(i=1,2,…,p)所提供方差的总和，它是衡量公共因子相对重要性的指标。gj2越大，表明公共因子Fj对x的贡献越大,或者说对x的影响和作用就越大。如果将因子载荷矩阵Ａ的所有gj2 ( j =1,2,…,m)都计算出来，使其按照大小排序，就可以依此提炼出最有影响力的公共因子。

3. 因子旋转

　　建立因子分析模型的目的不仅是找出主因子，更重要的是知道每个主因子的意义，以便对实际问题进行分析。如果求出主因子解后，各个主因子的典型代表变量不很突出，还需要进行因子旋转，通过适当的旋转得到比较满意的主因子。

　　旋转的方法有很多，正交旋转(orthogonal rotation)和斜交旋转(oblique rotation)是因子旋转的两类方法。最常用的方法是最大方差正交旋转法(Varimax)。进行因子旋转，就是要使因子载荷矩阵中因子载荷的平方值向0和1两个方向分化，使大的载荷更大，小的载荷更小。因子旋转过程中，如果因子对应轴相互正交，则称为正交旋转；如果因子对应轴相互间不是正交的，则称为斜交旋转。常用的斜交旋转方法有Promax法等。

4.因子得分

　　因子分析模型建立后，还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位，即进行综合评价。例如地区经济发展的因子分析模型建立后，我们希望知道每个地区经济发展的情况，把区域经济划分归类，哪些地区发展较快，哪些中等发达，哪些较慢等。这时需要将公共因子用变量的线性组合来表示，也即由地区经济的各项指标值来估计它的因子得分。

　　设公共因子F由变量x表示的线性组合为:

　　Fj = uj1 xj1+ uj2 xj2+…+ujpxjp    j=1,2,…,m

　　该式称为因子得分函数，由它来计算每个样品的公共因子得分。若取m=2，则将每个样品的p个变量代入上式即可算出每个样品的因子得分F1和F2，并将其在平面上做因子得分散点图，进而对样品进行分类或对原始数据进行更深入的研究。

　　但因子得分函数中方程的个数m小于变量的个数p，所以并不能精确计算出因子得分，只能对因子得分进行估计。估计因子得分的方法较多，常用的有回归估计法，Bartlett估计法，Thomson估计法。

（1）回归估计法

　　F = X b = X (X ￠X)-1A￠ = XR-1A￠  (这里R为相关阵，且R = X ￠X )。

（2）Bartlett估计法

　　Bartlett估计因子得分可由最小二乘法或极大似然法导出。

　　F = [(W-1/2A)￠ W-1/2A]-1(W-1/2A)￠ W-1/2X = (A￠W-1A)-1A￠W-1X

（3）Thomson估计法

　　在回归估计法中，实际上是忽略特殊因子的作用，取R = X ￠X，若考虑特殊因子的作，此时R = X ￠X＋W，于是有：

　　F = XR-1A￠ = X (X ￠X＋W)-1A￠

　　这就是Thomson估计的因子得分，使用矩阵求逆算法(参考线性代数文献)可以将其转换为：

　　F = XR-1A￠ = X (I+A￠W-1A)-1W-1A￠

5. 因子分析的步骤

　　因子分析的核心问题有两个：一是如何构造因子变量；二是如何对因子变量进行命名解释。因此，因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。

（i）因子分析常常有以下四个基本步骤：

（1）确认待分析的原变量是否适合作因子分析。

（2）构造因子变量。

（3）利用旋转方法使因子变量更具有可解释性。

（4）计算因子变量得分。

（ii）因子分析的计算过程：

（1）将原始数据标准化，以消除变量间在数量级和量纲上的不同。

（2）求标准化数据的相关矩阵；

（3）求相关矩阵的特征值和特征向量；

（4）计算方差贡献率与累积方差贡献率；

（5）确定因子：

　　设F1，F2，…, Fp为p个因子，其中前m个因子包含的数据信息总量（即其累积贡献率）不低于80%时，可取前m个因子来反映原评价指标；

  （6）因子旋转：

　　若所得的m个因子无法确定或其实际意义不是很明显，这时需将因子进行旋转以获得较为明显的实际含义。

（7）用原指标的线性组合来求各因子得分：

　　采用回归估计法，Bartlett估计法或Thomson估计法计算因子得分。

（8）综合得分

　　以各因子的方差贡献率为权，由各因子的线性组合得到综合评价指标函数。

　　Ｆ = (w1F1+w2F2+…+wmFm)／(w1+w2+…+wm )

　　此处wi为旋转前或旋转后因子的方差贡献率。

（9）得分排序：利用综合得分可以得到得分名次。
******************************************************************************************************************

******************************************************************************************************************
　　在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时，需要研究以下几个方面的问题：

· 简化系统结构，探讨系统内核。可采用主成分分析、因子分析、对应分析等方法，在众多因素中找出各个变量最佳的子集合，从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”，抓住主要矛盾，把握主要矛盾的主要方面，舍弃次要因素，以简化系统的结构，认识系统的内核。

· 构造预测模型，进行预报控制。在自然和社会科学领域的科研与生产中，探索多变量系统运动的客观规律及其与外部环境的关系，进行预测预报，以实现对系统的最优控制，是应用多元统计分析技术的主要目的。在多元分析中，用于预报控制的模型有两大类。一类是预测预报模型，通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型，通常采用聚类分析的建模技术。

· 进行数值分类，构造分类模式。在多变量系统的分析中，往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理，以致处理结果反映不出系统的总的特征。进行数值分类，构造分类模式一般采用聚类分析和判别分析技术。

　　如何选择适当的方法来解决实际问题，需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立，可先根据有关生物学、生态学原理，确定理论模型和试验设计；根据试验结果，收集试验资料；对资料进行初步提炼；然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性，选择最佳的变量子集合；在此基础上构造预报模型，最后对模型进行诊断和优化处理，并应用于生产实际。
******************************************************************************************************************