分享

【1115.】PCA、PLS-DA、OPLS-DA到底啥关系?

 松哥精鼎统计 2020-11-11
导读

代谢组学是一门十分火热的研究领域,在代谢组学的数据分析中,下图你一定不陌生。

  
    图中的同一种颜色所覆盖的区域代表同一组的样本数据,如果同组的样本都聚在一起,不同组的数据分布在不同的颜色区域,表示结果组内创新性较好,而组间差异较大,不同组的数据特征区别明显。这个图不仅可以区分样本差异,还可以通过QC样本的进行质控评估。
      代谢组学数据往往是复杂的多维度的,所以在寻找组间数据特征差异时并不容易。在多元统计分析中,PCA、PLS-DA、OPLS-DA都是常见的分析方法。他们既有相似的“降维”思维,又有各自的特点。

主成分分析(PCA)






     主成分分析(principal component analysis,PCA)是多元统计分析中最常见的数据分析方法,它能够将大量相关变量通过线性变换转化为一组最能代表数据特征的不相关的变量,用这组不相关变量来描述样本,进而简化分析过程,这组不相关变量就是“主成分”,这种分解变量的方法就是对数据进行“降维”处理。
      PCA可以简化复杂数据,使分析过程变得更容易,一方面留下数据中对方差贡献最大的特征,另一方面对数据进行“降维”,还可以去除数据噪音。它的本质是一种“无监督”的模式,在分析时不知道每个样本的分组,单纯根据数据的特征进行分析。
     PCA可以清晰明了地展示数据组内的重复性和组间的差异性,评估数据的可重复性,发现可能存在的异常值,比如明显离群的样本点。
    PCA是最常见的基于特征分解的降维方法,PCA是一种无监督的模式,属于探索性分析。但由于代谢组学数据的复杂性,对于组间差异不够明显的样品,单纯的“无监督”分析不能很好地区分样本的组间差异,我们就需要用到其他的分析方法。

图:PCA得分图
    与PCA不同的是,PLS-DA和OPLS-DA则是有监督的模式,属于模型的方法。它们使用偏最小二乘回归建立代谢物表达量与样本类别之间的关系模型,对数据降维,这种监督模式通常可以更好地确立样本关系,如下图所示这样,无监督的PCA无法很好地区分组间样本时,而PLS-DA则实现有效分离。除了降维数据外,PLS-DA和OPLS-DA还可实现对样品类别的预测(即用于分类),通过构建分类预测模型,可进一步用于识别更多的样本所属,这是探索性的PCA方法无法做到的。

PLS-DA






    除了上述PCA分析方法,还有另外两种:偏最小二乘判别分析(partial least-squares discrimination analysis,PLS-DA)和正交偏最小二乘判别分析(orthogonal partial least-squares discrimination analysis,OPLS-DA)
    与PCA不同,PLS是“有监督”模式的偏最小二乘法分析,也就是在分析数据时,已知样本的分组关系,这样可以更好的选择区分各组的特征变量,确定样本之间的关系。
    DA是判别分析,PLS-DA用偏最小二乘回归的方法,在对数据“降维”的同时,建立了回归模型,并对回归结果进行判别分析。

OPLS-DA






      PLS-DA和OPLS-DA中涉及到两个矩阵:X矩阵为样本-变量观测矩阵,Y矩阵为样本类别归属矩阵。通过X和Y矩阵进行建模,即通过样本-变量关系确立样本关系。

      两种方法相比,偏最小二乘(PLS)是一种基于预测变量和响应变量之间协方差的潜在变量回归方法,已被证明可以有效地处理具有多共线性预测变量的数据集。正交偏最小二乘(OPLS)则分别对与响应相关且正交的预测变量的变化进行建模。将它们与判别分析结合,即分别为PLS-DA和OPLS-DA。

    OPLS-DA是在PLS-DA的基础上,进行了正交变换的矫正,可以滤除与分类信息无关的噪音,提高了模型的解析能力和有效性。

   正交偏最小二乘法(OPLS)是一种新型的多元统计方法,它由Johan Tryggde等人于2002年提出,近十年来,这种方法在理论和应用方面得到了迅速的发展,并在计量化学中有大量的应用。OPLS是一种多因变量对多自变量的回归建模方法,其大的特点是可以去除自变量X中与分类变量Y无关的数据变异。使分类信息主要集中在一个主成分中,从而模型变得简单和易于解释,其判别效果及主成分得分图的可视化效果更加明显。

松哥统计说






    PLS-DA/OPLS-DA建立了代谢物表达量与分组关系之间的模型,PLS-DA和OPLS-DA可以更好地获取组间差异信息,还可以对样品的分组进行预测,这是PCA做不到的。

图:PLS-DA得分图
    如图是50例小鼠的血清样本。在PCA结果中,除了BCG组外,其他四组不能在PCA得分图中很好的区分开。进行了PLS-DA分析后,各组分离的情况有所改善,但仍有重叠。OPLS-DA分析则很好地区分了不同组别的样本。

图:OPLS-DA得分图
      
    OPLS-DA得分图的横坐标表示OSC过程中的主要成分的得分值(Tp),所以从横坐标的方向可以看到组间的差异;纵坐标表示OSC过程中的正交成分的得分值(TO);所以从纵坐标上看出组内的差异(组内样本间的差异)。
    我们可以根据样本数据的情况,选择适合的多元统计分析方法,展示不同组别之间数据的差异。
   

S-plot图






    S-plot图的横坐标表示主成分与代谢物的协相关系数,纵坐标表示主成分与代谢物的相关系数。S-plot图一般用来挑选与OSC过程中主要成分的相关性比较强的代谢物,从另一方面同时也可以挑选与Y相关性强的代谢物。越靠近两个角的代谢物重要度越强。红色的点表明这些代谢物的VIP值大于等于1,绿色的点表示这些代谢物的VIP值小于等于1。

图:OPLS-DA S-plot

Permutation Test图






    OPLS-DA的模型验证permutationTest图。模型验证permutationTest图的横坐标表示模型的准确率,纵坐标表示200次permutation Test中200个模型的准确率的频数,箭头表示本OPLS-DA模型准确率所在的位置,其中R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,Q2表示模型的预测能力,理论上R2、Q2数值越接近1说明模型越好,越低说明模型的拟合准确率越差,通常情况下,R2和Q2高于0.5较好,高于0.4即可以接受。从图中可以看出Q2为0.994,R2Y为1,R2X为0.685,Q2和R2Y的P值均为0.005,说明permutation Test中只有1个随机分组模型结果优于本OPLS-DA模型,一般情况下P<0.05时模型较佳。

松哥统计说






    R在生信领域可谓风风火火,R包中的ropls包可以进行PCA、PLS-DA和OPLS-DA分析。SIMCA-P 软件也可以进行OPLS-DA分析。具体实现过程本期不赘,如需要者较多,本号也可以考虑后期制作发布。

---统计思维与理论系列---

【1114.】先单后多风险因素发现模型构建论文错误解析

【1113.】医学论文中常用回归分析方法的审核要点[松哥荐读]及对策

【1112.】病例对照研究中的COR和AOR

【1111.】这个北大核心太好发呀!

【1110.】松哥,重测后t检验是咋回事?

【1109.】两独立t如何获取差值的可信区间?

【1108.】SCI论文,有时也错的离谱

【1107.】Y是连续,X是分类,怎么分析?

【1106.】统计问诊:这样的回归,松哥也很少见到

【1105.】统计问诊:松哥为什么我回归模型无法计算可信区间

【1104.】质性研究编码及nvivo操作

[1103.]CNKI升级了,即使撤稿也还能下载,如此留下痕迹,侥幸者要注意啦!

【1102.】[精品资源]回归建模策略(第二版)

【1101.】单组前后测量设计,你得小心了?

【1094.】横断面研究思路与统计分析方法

【1093.】临床设计与统计设计:相爱相杀

【1092.】为什么一篇文章要建立5个模型

【1091】混杂因素与交互作用杂谈!

【1090.】中英文期刊分类(SCI分区和中文核心),一文秒懂!

【1089.】看懂此图,统计开悟!松哥荐读

【1088.】模型发现有交互作用怎么办?怎么解释呢!

【1087.】LASSO:变量选择利器!

【1086.】为啥20分以上SCI论文如此钟情P-interaction!

【1085.】正态性不符合怎么办?其实没啥大事!

【1084.】哎呦妈呀!几何均数还有标准差呀?书中从来没说过呀!

【1083.】交叉验证是啥个意思,是换妻游戏吗?

【1082.】不懂统计思维的统计是没有灵魂的!

【1081.】造假大识别,这种假都敢造!

【1080.】辨析丨啥?统计上还有q值,和P值啥关系?

【1079.】这种造假方式,您能识别吗?

【1078.】SCI相关分析比中文正规的3点理由

【1077.】临床科研设计与数据分析9大易忽视错误(推荐)

【1076.】这种套路可以学,怎么化无意义为有意义!

【1075.】很有意思的一个统计问题,并发症到底该如何分析?

【1074.】一文了解主流统计软件

【1073.】WHAT!计算机随机序列竟然是伪随机

【1072.】单因素Logistic回归变量筛选,你还在用表表达,看看人家如何可视化的,审稿人看了能不开心吗?

【1071.】SCI论文中回归模型样本量确定标准,建议阅读

【1070.】性别和吸烟是专业公认的危险因素,为啥多因素分析性别没意义了?

【1069.】数值变量应该以何种形式进入模型

【1068.】多项分类变量进入模型的正确姿势

【1067.】这种随意拆分的错误不能犯

【1066.】SCI统计方法写作秘籍

【1065.】这篇SCI论文10个统计问题辨析

【1064.】以前认为概念无所谓,其实松哥错了

【1063.】松哥,我发现一处SCI统计错误,非常荒谬!

【1062.】分类变量哑变量设置后,参照到底如何选择?

【1061.】这篇SCI的诊断试验结果看不懂,他到底是咋比的

【1060.】如何向统计老师咨询统计问题的正确姿势

【1059.】生存分析单因素筛选的困惑

【1058.】4种最常用的统计设计解读

【1057.】SPSS统计软件学习终身不忘之必杀技

【1056.】回归家族的书剑恩仇录,高手进阶必经之路

【1055.】单因素是危险因素,多因素却保护因素了,想逆天吗?

【1054.】这种文章统计套路您一定要学,不管你什么专业通杀

【1053.】这个空白对照到底要不要加?

【1052.】同一肝癌患者,同时接受CT、超声和磁共振,如何分析?

【1051.】来自临床真实问题,有点意思,松哥荐读!

【1050.】知道两组数据的样本量均数标准差,怎么算合并统计量呢?

【1049.】meta分析软件Revman5.3卡死解决方案

【1048.】P>0.05,本身就是没意义还是样本量不够?

【1047.】两因素方差分析,如何判断哪个因素对结果影响较大?

【1046.】带基线数据数值变量如何进行统计分析辨析

【1045.】统计学习之最大困惑!!

【1044.】松哥为啥我318样本量统计分析出来确实400样本量?

【1043.】这两个是啥图?区别和联系

【1042.】变量之间到底是单项转化还是双向转化

【1041.】统计水平自我评估表

【1040.】基线分析的3个终极目的

【1039.】统计小白的学习路径

【1038.】SCI论文中Logistic回归模型“门当户对”原则,松哥心得推荐给您

【1037.】被我们忽视的生存分析区间删失数据

【1036.】Logistic回归文章的SCI审稿人意见解读

【1035.】统计学上的2K效应,你发现了没?

【1034.】正态分布的3个基因密码,聆听大自然心跳的代码!

【1033.】生存分析K-M法与COX回归结论不一致怎么办?

【1032.】异常值的处理只有删除?

【1031.】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法

【1030.】SCI审稿人让我控制2个单因素无意义的变量?

【1029.】量表评价是信度重要还是效度重要?

【1028.】Meta分析要解决的首要任务

【1027.】文章材料与方法中统计方法如何描述

【1026.】这个到底是啥统计设计?一起来看看!

1025.聚类分析稳定性判别的经验总结

【1024.】“参数检验与非参数检验”哪个更好?

【1023.】干预前后数据统计分析方法

【1022.】听完四个小故事,你就明白主成分分析是啥意思了!

【1021.】方差分析P>0.05,两两比较LSD法P<0.05,这可咋整?

【1020.】等级与等比,可得分清楚!

【1019.】频率与概率,如胶又似漆!

【1018.】终于发现不用学习,顿悟统计的方法

【1017.】倾向性评分后数据,应该采用配对设计还是成组设计?

【1016.】统计必学的4个核心思想

【1015.】加权最小二乘回归是什么鬼?

【1014.】平行性检验到底应该啥时候做?

【1013】统计的4维空间(一维一层天)

【1012】到底做相关?还是方差分析呢?

【1011】这篇文章凭啥这样分组呢?

【1010】常用统计分析方法选择图解

【1009】P<0.05也别理直气壮,统计也会犯错,还分犯I类和II类错误?

【1008】文章鉴析:这篇文章或许有10处不适!

【1007】R×C卡方的Fisher确切概率法为什么会有卡方值

【1006】大小优指标如何同时制作ROC曲线[经验技巧]

【1005】统计方法与统计思想谁重要?

【1004】别说相关太简单,且听松哥说相关

【1003】正态分布10种鉴别方法汇总【荐藏】

【1002】连续变量变成等级变量后,原来有意义的变量变得没意义了?

【1001】SCI论文中的P for trend是什么鬼?为什么高分文章经常采用呢

------------------------------

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多