【原】【1115.】PCA、PLS-DA、OPLS-DA到底啥关系？

松哥精鼎统计 2020-11-11

展开全文

导读

代谢组学是一门十分火热的研究领域，在代谢组学的数据分析中，下图你一定不陌生。

图中的同一种颜色所覆盖的区域代表同一组的样本数据，如果同组的样本都聚在一起，不同组的数据分布在不同的颜色区域，表示结果组内创新性较好，而组间差异较大，不同组的数据特征区别明显。这个图不仅可以区分样本差异，还可以通过QC样本的进行质控评估。

代谢组学数据往往是复杂的多维度的，所以在寻找组间数据特征差异时并不容易。在多元统计分析中，PCA、PLS-DA、OPLS-DA都是常见的分析方法。他们既有相似的“降维”思维，又有各自的特点。

主成分分析（PCA）

主成分分析（principal component analysis，PCA）是多元统计分析中最常见的数据分析方法，它能够将大量相关变量通过线性变换转化为一组最能代表数据特征的不相关的变量，用这组不相关变量来描述样本，进而简化分析过程，这组不相关变量就是“主成分”，这种分解变量的方法就是对数据进行“降维”处理。

PCA可以简化复杂数据，使分析过程变得更容易，一方面留下数据中对方差贡献最大的特征，另一方面对数据进行“降维”，还可以去除数据噪音。它的本质是一种“无监督”的模式，在分析时不知道每个样本的分组，单纯根据数据的特征进行分析。

PCA可以清晰明了地展示数据组内的重复性和组间的差异性，评估数据的可重复性，发现可能存在的异常值，比如明显离群的样本点。

PCA是最常见的基于特征分解的降维方法，PCA是一种无监督的模式，属于探索性分析。但由于代谢组学数据的复杂性，对于组间差异不够明显的样品，单纯的“无监督”分析不能很好地区分样本的组间差异，我们就需要用到其他的分析方法。

图：PCA得分图

与PCA不同的是，PLS-DA和OPLS-DA则是有监督的模式，属于模型的方法。它们使用偏最小二乘回归建立代谢物表达量与样本类别之间的关系模型，对数据降维，这种监督模式通常可以更好地确立样本关系，如下图所示这样，无监督的PCA无法很好地区分组间样本时，而PLS-DA则实现有效分离。除了降维数据外，PLS-DA和OPLS-DA还可实现对样品类别的预测（即用于分类），通过构建分类预测模型，可进一步用于识别更多的样本所属，这是探索性的PCA方法无法做到的。

PLS-DA

除了上述PCA分析方法，还有另外两种：偏最小二乘判别分析（partial least-squares discrimination analysis，PLS-DA）和正交偏最小二乘判别分析（orthogonal partial least-squares discrimination analysis，OPLS-DA）

与PCA不同，PLS是“有监督”模式的偏最小二乘法分析，也就是在分析数据时，已知样本的分组关系，这样可以更好的选择区分各组的特征变量，确定样本之间的关系。

DA是判别分析，PLS-DA用偏最小二乘回归的方法，在对数据“降维”的同时，建立了回归模型，并对回归结果进行判别分析。

OPLS-DA

PLS-DA和OPLS-DA中涉及到两个矩阵：X矩阵为样本-变量观测矩阵，Y矩阵为样本类别归属矩阵。通过X和Y矩阵进行建模，即通过样本-变量关系确立样本关系。

两种方法相比，偏最小二乘（PLS）是一种基于预测变量和响应变量之间协方差的潜在变量回归方法，已被证明可以有效地处理具有多共线性预测变量的数据集。正交偏最小二乘（OPLS）则分别对与响应相关且正交的预测变量的变化进行建模。将它们与判别分析结合，即分别为PLS-DA和OPLS-DA。

OPLS-DA是在PLS-DA的基础上，进行了正交变换的矫正，可以滤除与分类信息无关的噪音，提高了模型的解析能力和有效性。

正交偏最小二乘法（OPLS）是一种新型的多元统计方法，它由Johan Tryggde等人于2002年提出，近十年来，这种方法在理论和应用方面得到了迅速的发展，并在计量化学中有大量的应用。OPLS是一种多因变量对多自变量的回归建模方法，其大的特点是可以去除自变量X中与分类变量Y无关的数据变异。使分类信息主要集中在一个主成分中，从而模型变得简单和易于解释，其判别效果及主成分得分图的可视化效果更加明显。

松哥统计说

PLS-DA/OPLS-DA建立了代谢物表达量与分组关系之间的模型，PLS-DA和OPLS-DA可以更好地获取组间差异信息，还可以对样品的分组进行预测，这是PCA做不到的。

图：PLS-DA得分图

如图是50例小鼠的血清样本。在PCA结果中，除了BCG组外，其他四组不能在PCA得分图中很好的区分开。进行了PLS-DA分析后，各组分离的情况有所改善，但仍有重叠。OPLS-DA分析则很好地区分了不同组别的样本。

图：OPLS-DA得分图

OPLS-DA得分图的横坐标表示OSC过程中的主要成分的得分值(Tp)，所以从横坐标的方向可以看到组间的差异；纵坐标表示OSC过程中的正交成分的得分值(TO)；所以从纵坐标上看出组内的差异（组内样本间的差异）。

我们可以根据样本数据的情况，选择适合的多元统计分析方法，展示不同组别之间数据的差异。

S-plot图

S-plot图的横坐标表示主成分与代谢物的协相关系数，纵坐标表示主成分与代谢物的相关系数。S-plot图一般用来挑选与OSC过程中主要成分的相关性比较强的代谢物，从另一方面同时也可以挑选与Y相关性强的代谢物。越靠近两个角的代谢物重要度越强。红色的点表明这些代谢物的VIP值大于等于1，绿色的点表示这些代谢物的VIP值小于等于1。

图：OPLS-DA S-plot

Permutation Test图

OPLS-DA的模型验证permutationTest图。模型验证permutationTest图的横坐标表示模型的准确率，纵坐标表示200次permutation Test中200个模型的准确率的频数，箭头表示本OPLS-DA模型准确率所在的位置，其中R2X和R2Y分别表示所建模型对X和Y矩阵的解释率，Q2表示模型的预测能力，理论上R2、Q2数值越接近1说明模型越好，越低说明模型的拟合准确率越差，通常情况下，R2和Q2高于0.5较好，高于0.4即可以接受。从图中可以看出Q2为0.994，R2Y为1，R2X为0.685，Q2和R2Y的P值均为0.005，说明permutation Test中只有1个随机分组模型结果优于本OPLS-DA模型，一般情况下P<0.05时模型较佳。