分享

代谢组学下游分析(二)——O2PLSDA模型

 外科黄文斌 2023-04-11 发布于广东

代谢组学下游分析(二)

——O2PLSDA模型

在代谢组学的下游分析中,我们经常会应用到代谢组学联合其他组学进行多组学的数据分析,除了我们熟知的pearson,spearman等一对一计算相关系数的方法之外,在多组学联合分析中我们常用O2PLSDA(2-way orthogonal Partial Least Square with Discriminant Analysis)模型来进行两组学间的数据整合分析

与转录组相比,多组学数据更为复杂,O2PLSDA作为非监督建模方法,可在两个数据矩阵中进行双向建模和预测,利用此分析,可挖掘两组学之间的内部联系,一方面可反映不同数据组间的整体影响,另一方面可直接体现不同变量在模型中的权重(权重越大,意味着该变量的变化对另一个组学的扰动更剧烈),以确定引起这种关联的主要基因或者代谢物或蛋白等。

以代谢组学联合蛋白质组学为例,O2PLSDA分析要求两组输入数据来自同一组样本,即样本必须一一对应。

两组学数据输入后将会经过一系列计算最终分为三部分:

1. 关联部分:即存在关联,两组学间共同对应的变化。

2. 正交部分:即不存在关联,两组学间彼此正交,互不相关。

3. 冗余部分:冗余信息。

模型构建的参数为(以代谢组学联合蛋白质组学为例)1.代谢组正交部分的组分个数;2.蛋白质组正交部分的组分个数;3.两组学关联部分的组分个数;4.模型的预测误差。通过对正交部分和关联部分组分多次进行交叉验证法多次预建模,选择预测误差(prediction error)最小的模型进行后续分析。

输出参数为

图片
图片

R2x:代谢组关联和正交部分对代谢组总变异的解释度

R2y:蛋白质组关联和正交部分对蛋白质组总变异的解释度

R2xcorr:代谢组关联部分对代谢组总变异的解释度

R2ycorr:蛋白质组关联部分对蛋白质组总变异的解释度

贡献度是指模型各部分对总变异的解释程度,用R2表示。R2值越高,表示该部分对模型的解释能力越好。

同时输出loading值(载荷值)表格,载荷值表示各组变量对组间差异的贡献程度,正负表明与另一组学是正相关还是负相关,载荷值绝对值越大,与另一组学关联度越高。

接下来即可构建两组学间的O2PLSDA模型,根据两组数据载荷值的结果,选取两个维度载荷值平方和前N个代谢物和蛋白质整合绘制载荷图,以可视化关联度最大的代谢物和蛋白质。

图片

该图表示蛋白质组和代谢物关联部分的载荷图,横轴为第一维坐标,纵轴为第二维坐标。图中圆点表示蛋白质,三角形表示代谢物,在坐标中的绝对值越大,表示此元素与另外一个组学的关联程度越大。从该图中,我们就可以获得关联性较高的蛋白质和代谢物,为后续的两组学数据关联分析奠定基础。

编辑:宋丽影

排版:李吉珍

审校:王维

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多