1分钟看懂OPLS-DA原理及图表

生物_医药_科研 2019-08-06

展开全文

OPLS 简介

正交偏最小二乘法（Orthogonal projections to latent structures (OPLS)）是一种新型的多元统计方法，它由Johan Tryggde等人于2002年首次提出。近十年来，这种方法在理论和应用方面得到了迅速的发展，并在计量化学中有大量的应用。OPLS是一种多因变量对多自变量的回归建模方法，其最大的特点是可以去除自变量X中与分类变量Y无关的数据变异，使分类信息主要集中在一个主成分中，从而模型变得简单和易于解释，其判别效果及主成分得分图的可视化效果更加明显。

OPLS 原理

OPLS从给定的数据集X中移除系统正交变量，并把这些正交变量和非正交变量区分开来，可以对这些正交变量单独进行分析。OPLS方法利用响应变量Y中的信息把X分成三部分。即

X = T_PP^T_P+ T_OP^T_O+ E

其中，T_P表示X的预测的得分矩阵，P^T_P表示X的预测载荷矩阵，T_PP^T_P表示预测部分，T_O表示X与Y的正交成分（称为OPLS成分）的得分矩阵，P^T_O表示对应的载荷矩阵，T_OP^T_O表示与Y正交的部分，E为残差矩阵。

OPLS方法的实现通过两步完成：

第一步，与Y正交的变量从X数据矩阵中剔除，即

X_P = X − T_OP^T_O

其中T_O是与Y正交成分的得分矩阵，P^T_O是与其对应的载荷矩阵。

第二步，对X_P进行偏最小二乘分析。

图1 OPLS的概述图

OPLS-DA 图表简述

[1]. OPLS-DA的得分图

OPLS-DA 得分图的横坐标表示OSC过程中的主要成分的得分值（Tp），所以从横坐标的方向可以看到组间的差异；纵坐标表示OSC过程中的正交成分的得分值(TO)；所以从纵坐标上看出组内的差异（组内样本间的差异）。

图2 OPLS-DA得分图

[2]. OPLS-DA 的S-plot图

S-plot图的横坐标表示主成份与代谢物的协相关系数，纵坐标表示主成份与代谢物的相关系数。S-plot图一般用来挑选与OSC过程中主要成分的相关性比较强的代谢物，从另一方面同时也可以挑选与Y相关性强的代谢物。越靠近两个角的代谢物重要度越强。红色的点表明这些代谢物的VIP值大于等于1，绿色的点表示这些代谢物的VIP值小于等于1。

图3 OPLS-DA S-plot

[3]. OPLS-DA的模型验证permutation Test图

模型验证permutation Test图的横坐标表示模型的准确率，纵坐标表示200次permutation Test中200个模型的准确率的频数，箭头表示本OPLS-DA模型准确率所在的位置，其中R²X和R²Y分别表示所建模型对X和Y矩阵的解释率，Q2表示模型的预测能力，理论上R²、Q²数值越接近1说明模型越好，越低说明模型的拟合准确性越差，通常情况下，R²、Q²高于0.5较好，高于0.4即可接受。从图中可以看出Q²为0.994，R²Y为1，R²X为0.685，Q²和R²Y的P值均为0.005，说明permutation Test中只有1个随机分组模型结果优于本OPLS-DA模型，一般情况下P<0.05时模型最佳。