分享

主成分分析(PCA)简介

 珈文2017 2020-07-06
  1. 什么(what)是主成分分析?

      主成分分析(Principal Component Analysis)又称主分量分析,是一种

    基于降维思想把多个变量化为少数几个主成分(即综合变量)的统计分析法。主成分通常表示为原始变量的某种线性组合,能够反映原始变量的绝大部分信息,并具有最大的方差,通过保证主成分之间互不关联,使得这些主成分之间所包含的的信息互不重叠。

  2. 为什么(why)要用主成分分析?

      在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且变量之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。

  3. 怎么(how)进行主成分分析?

    主成分分析的步骤

(1)将观测数据标准化,并计算原始变量平均值以及样本协方差矩阵

(2)由相关系数矩阵得到特征值及各个主成分的方差贡献率、贡献率和累计、贡献率,并根据累计贡献率确定主成分保留的个数;

(3)写出 个基本方程组

(4)将各个样本的观测值代入主成分向量的表达式中计算各个主成分向量。

(5)计算原指标与主成分的相关系数即因子载荷,解释主成分的意义。

4.主成分分析的优缺点

优点    

①可消除评估指标之间的相关影响。因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好。

②可减少指标选择的工作量,对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析法由于可以消除这种相关影响,所以在指标选择上相对容易些。    

③主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原变 量,从而减少了计算工作量。用主成分分析法作综合评估时,由于选择的原则是累计贡献率≥85%,不至于因为节省了工作量却把关键指标漏掉而影响评估结果。   

缺点:    

①在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。   

②主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。    

③当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。

5.总结

  5.1 主成分分析法, 可以消除各变量之间的共线性, 减少变量的个数,利于后续的分析。

  5.2 使用主成分分析可以按照事物的相似性区分产品, 结果可用一维、二维或三维平面坐标图标示, 特别直观。

  5.3 将样品的数据通过主成分分析进行浓缩, 然后通过平面坐标可以实现从总体上对样品进行一致性的分析,一般的统计技术只能对某一指标进行评价。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多