分享

因子分析

 脑系科数据科学 2019-03-14

1、The Formulation the Problem
 这包括定义一个因子分析的问题并确定实施因子分析的变量。应用统计分析方法的关键往往并不在于方法本身,而在于对合适的问题选择合适的方法。因子分析适用的场合往往是一些多变量大样本的情形,研究者的目的则在于寻求这些具有内在相关性的变量背后的一种基本结构。包含在
因子分析中的变量应当依据过去的经验、理论或者研究者自己的判断而被选择。但非常重要的一点是,这些变量必须具备区间或者比率测度等级。在样本大小方面,粗略而言,进行因子分析的样本容量至少应是因子分析所涉及变量数目的4—5倍。

2、The Construction & Test of Correlation Matrix
 如前所述,因子分析基于变量间的协方差矩阵。换言之,包含在因子分析中的
变量必须具有一定的相关性,如果变量间不存在相关,或者相关性很小,那么因子分析将不是一种合适的分析方法。实际中,变量间的相关性往往是存在的,但是否达到适合进行因子分析的程度呢?除了直观的判定外,所幸的是还存在一些客观的检验方法。

巴特利特球体检验(Bartlett’s test of sphericity)可以用来检验变量间是否存在相关。它是一种建立在协方差阵是单位阵(即变量间不相关)的假设基础之上的检验。一个大的检验值通常意味着检验结果的显著性,因此可以拒绝原假设,可以进行因子分析,否则应该慎重考虑。
另一个有用的方法是
KMO测度(Kaiser-Meyer-Olkin measure of sampling adequacy) ,它比较了观测到的变量间的相关系数和偏相关系数的大些一个大的KMO测度值同样支持我们进行因子分析。一般而言,KMO测度〉0.5意味着因子分析可以进行,而在0.7以上则是令人满意的值。

3、The Method of Factor Analysis
主成分分析法(principal component analysis)和公因子分析法(common factor analysis)是两种主要的寻找公因子的方法。前者主要考虑变量的全部方差,而后者则着重考虑共同方法。因此,主成分分析法使用直接由数据计算出的协方差阵,而公因子分析法则先将计算出的协方差阵的对角线元素替换为一个估计的共同度,再进行后续分析。如果研究者关注的问题是寻求可以解释数据中的最大方差的尽可能少的因子时,主成分分析法是一种值的推荐的方法,同时这也是应用比较广泛的一类方法。

4、The Number of Factors
主成分法所获取的因子解的数目是同原来变量的个数一样多的,而因子分析的主要目的则是用少数几个公因子来阐释数据的基本结构。这既要求因子的数目应该远比远来的变量个数要少,同时又要求保留的因子能够尽可能多的保留原来变量的信息。因此因子数目的选取也就比较讲究。除了经验判断外,特征值法是选用较多的判断方法。因子对应的特征值就是因子所能解释的方差大小,而由于标准化变量的方差为1,因此特征值法要求保留因子特征值大于1的那些因子。这意味着要求所保留的因子至少能够解释一个变量的方差。需要注意的是,如果变量的数目少于20,该方法通常会给出一个比较保守的因子数目。此外,基于所保留的因子能够解释的方差比例的方法也常常使用。一般而言,所保留的公因子至少应该能够解释所有变量60%的方差。因子碎石图(scree plot)提供了因子数目和特征值大小的图形表示。可以用于直观的判定因子数目。半分法及统计检验法也是确定因子数目的方法,但并不常用。

5、The Rotation of Factors
因子负载给出了观测变量和提取的因子之间的相关程度的大小,这意味着在某一因子上的负载大的变量对该因子的影响较大,因子的实际意义较大地取决于这些变量。这可以帮助我们来解释因子的实际意义。但是,基于公因子本身的意义,实际中往往会出现所有变量在一个因子上的负载都比较大的情形,这为因子的解释带来了困难。

因子旋转(rotation of factors)为因子解释提供了便利。因子旋转的目的是使某些变量在某个因子上的负载较高,而在其它因子上的负载则显著的低,
这事实上是依据因子对变量进行更好的“聚类”。同时,一个合理的要求是这种旋转应并不影响共同度和全部所能解释的方差比例。因子模型本身的协方差结构在正交阵下的“不可识别性”决定了因子旋转的可行性。

正交旋转(orthogonal rotation)和斜交旋转(oblique rotation)是因子旋转的两类方法。前者由于保持了坐标轴的正交性(成直角),即因子之间的不相关性,因此使用最多,也是正交因子模型的旋转方法。正交旋转的方法很多,其中
以方差最大化法(varimax procedure)最为常用。斜交旋转可以更好的简化因子模式矩阵,提高因子的可解释性,但是因为因子间的相关性而不受欢迎。但是如果总体中各因子间存在明显的相关关系则应该考虑斜交旋转。

6、The Interpretation of Factors
因子分析的重要一步应该是对所提取的公因子给出合理的解释。因子解释可以通过考虑在因子上具有较高负载的变量的意义进行。经过因子旋转后的因子负载阵可以大为提高因子的可解释性。
需要注意的是,即是经过旋转后,仍有可能存在一个因子的所有因子负载均较高的情形,这种因子通常可以称之为一般或者基础性因子,一个合理的解释是它是由于所研究的问题的共性所决定的,而并不单一的取决于问题的某一个方面。此外,对于某些负载较些难以解释或者实际意义不合理的因子,如果其解释的方差较小,则通常予以舍弃。

7、Factor Scores
如果后续分析需要,如进行回归分析等等,通常需要进一步计算各公因子的因子得分。即给出各因子在每一个案例(case)上的值。事实上,既然各观测变量可以表为各公因子的线性组合,那么反之,各公因子也可以表为各观测变量的线性组合. 因子得分正是通过这样的方法利用各观测变量的值而估计得到的。
主成分分析法可以给出各因子得分的精确值,并且这些值之间是不相关的。因子得分值可以用来代替原来的变量用于后续的分析。由于消除了相关性,为后续的统计分析方法的应用提供了较大便利。

8、Model Fitness
因子分析的最后,应该对构建的模型是否适合问题本身有一个认识,这就涉及到模型的适合度的判断。这种判断常常基于残差矩阵而进行。由因子模型的协方差结构(2.1)和(2.2)可知,一旦因子模型建立,有了因子负载后,我们就可以计算的观测变量的方差-协方差阵,这种由公因子再生的方差-协方差阵(reproduce correlation matrix)与实际观测到的方差-协方差阵(observed correlation matrix)之间的偏差,即残差矩阵(residuals matrix)是我们判断模型适合度的重要依据。如果残差矩阵中的值都比较大,那么我们有理由认为模型并不是很适合;反之如果残差矩阵接近于零矩阵,那么显然公因子可以很好的解释变量的方差-协方差关系,模型是合适的。再次指出,由于因子分析的实际过程在SPSS等统计分析软件中易于实现,因此在这里不再以实例赘述其操作过程,而是着重指出正确实施因子分析所应遵循的步骤及其意义。我们认为,这种素养对于研究者而言更为重要。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多