分享

代谢组学Question & Answer

 栖柒七 2019-07-28

转自:Biotree代谢组学(微信公众号)

1为什么选择代谢组学?

首先代谢组学分析的是小分子的代谢产物,如糖、有机酸、脂质、维生素、氨基酸、芳香烃之类的化合物,通常分子量在1000以内。如果关注的是小分子物质,那么采用代谢组学的方法,可以对样品内检测到的小分子物质进行定性、定量分析。

其次,不同于基因组学和蛋白组学,代谢组学的研究反映某一时刻下正在发生的生命活动情况,研究代谢物的表达量、代谢物与生理病理变化的关系,能够帮助寻找新的生物标记物,发现新的代谢途径,以及更进一步深入了解目前已知的这些途径,应用于疾病的早期诊断、药物靶点的发现、疾病的病理生理研究。2代谢组学我该选择哪个平台?

代谢组学的技术平台主要分为NMR、GC-MS、LC-MS。

NMR的特点是:

(1)无损的多参数和动态分析技术;

(2)样品需求量小,前处理比较简单,对于复杂的生物样本比较合适;

(3)检测时间短,保证样品在检测时间内维持原有性质;

(4)丰富的分子结构和动力学信息,但对读谱人员的要求高;

(5)同时完成定性定量分析;

但NMR的缺点是灵敏度低,检测动态范围有限。

GC-MS和LC-MS的特点是结合了色谱良好的分离能力和质谱的普适性、高灵敏度以及专一性,具体而言GC-MS分辨率、选择性好,数据库较为健全,但样品处理过程繁琐、难挥发性物质或半挥发性物质需要衍生化。

LC-MS灵敏度、分辨率高,可以分析不稳定、不易衍生化、难挥发和分子量大的代谢物,可对极性化合物有较好的检测。但数据库不健全,可鉴定的化合物有限。

因此在选择平台时应结合自身样本情况与个体需求,综合考虑。3做了代谢组学发现没有差异,该怎么办?

如果没有找到差异代谢物,那么还可以就检测到的物质进行KEGG Patheway分析,即对代谢物参与的代谢通路进行研究,观察是否有其他的补给途径、代谢途径与疾病之间是否存在一定的关联性。4该取什么类型的样本,该怎么处理样本?

代谢研究的样本处理和采集总的来说遵从“保持最鲜活的状态”原则,通过低温、淬灭的方法阻止离体后的代谢活动。

一般而言,样本的类型主要分为几类:血清、血浆、尿液、细胞、细菌、组织、培养液、植物的花、茎、叶等。样本的采集需要客户结合自己的情况做判断,如果还是不知道,可以参考相关文献或者向我们的技术工程师咨询(可以在微信后台留言“姓名 电话 问题哦)。5结果是什么样的,都包含哪些内容?

这跟项目协议有关,如果只是做检测,到最后只会提供一份定性物质列表的信息。如果项目内容还包括分析,那么我们还会对样本进行多元变量分析(PCA,OPLS-DA),差异物筛选,层次聚类分析,通路富集分析。对于个性化的定制分析,我们会结合顾客的具体情况与需求来出报告表。6我想开展代谢组学研究,如何设计实验?有哪些地方需要特别注意?

第一明确实验目的:

需要检查哪些样本设置正确的组别、样本的采集的部位、数量和处理方法、需要检测哪些物质、定性及定量的精度要求等;

第二选择合适的平台:

根据实验目的选择合适实验平台,不同平台对物质的检测以及定性定量能力不同:GC-MS适合挥发性物质,LC-MS适合极性物质,盲筛适合差异化合物的筛选,靶标适合准确定量;

第三选择合适的分析方案:

结合科研目的和意义的解读选择适合的分析方案:是单纯的筛选差异物、关注特定物质的表达差异、还是需要查询代谢通路以及做多组学的关联分析等。7BIOTREE有哪些质控手段?

内标和QC。内标可以用来观察保留时间是否偏移,以及对数据做规一化处理。QC用来反映仪器的稳定性,批间矫正,筛选feature。8如何说明实验没问题?

QC稳定、样品聚类,内标保留时间偏差小,物质的检出率高等都可以说明实验没问题。9为什么需要这么多生物学重复?

相较于基因和蛋白,代谢物处于生命活动的下游,动态波动性大。因此需要很多生物学重复来增加数据的可靠性和说服力。10为什么不能分两批检测?

最好不要分成两批检测,因为这两个时间点仪器的响应会发生变化,这样可能导致的问题是一些含量低的物质可能只在一个批次里被检出。11为什么某个物质明明在这个样本中占很大比重而实际结果远低于这个比重?

代谢物在仪器中的响应与其结构有关系,浓度与在样本中的权重不是对应关系。通常我们对定性出来的代谢物只做横向样本间的对比,而不做纵向的比较。12把数据导入SIMCA后,看到我们的试验样本(组1和组2)PCA上区分不开来,但是QC和试验样本间却有比较明显的区分,这是为什么?

首先,PCA分析的图是数据的一个投影,看到什么样的结果和投影的角度有关系,所以很多时候我们要看一看3D的PCA,但即使是3D的PCA,也只是原数据的投影。

再者,我们做QC这个样本是起质控的作用,关注的是QC组本身是不是有很好的聚集。QC聚集好表示实验稳定。

然后,QC虽然是多组样本的混合,会有一个向各组中心趋近的这样一个可能,但是不代表这样的趋近一定是线性的,可能会有偏移。

Anyway , QC组应该被视为一个新的样本组,它继承了各个组的部分信息,但PCA不一定会在中间。13

什么是韦恩图?有什么用?

Venn Diagram

维恩图(也称为一组图或逻辑图),用于显示一个有限的不同集合之间的所有可能的逻辑关系。14检测结果的物质名称都是英文的,我需要中文名称怎么办?

建议根据物质的KEGG名称和CAS号在“爱化学”(http://www./)网站查询中文名称。15PCA分析的原理是什么?

每一个样本检测了许多指标(具体的话就是代谢物的含量),每个指标表示一个维度,这样的话,每个样本都是一个多维的向量。在空间里看就是一团高维的数据云。PCA也就是主成分分析方法会通过投影的方式来对这个数据云进行降维处理,从而到达建立合适的模型来解释和预测的目的。PCA得分图展示的是PC1(第一主成分)和PC2(第二主成分)这两个方向构成的平面上的投影。PC1、PC2这两个方向是虚拟的不是具体的变量,是全部变量贡献的。16如何对差异代谢物做进一步的筛选?

一般是使用P值<0.05 & VIP>1 这样的卡值来进行差异物的筛选。

P值来源单元变量统计分析,VIP值来源于多元变量统计分析(来源于OPLS-DA模型)表征该变量对两组差异的贡献值,当然VIP值越大对差异贡献越大。

使用P值<0.05 & (FC>2 或 FC<0.5) [FC= Fold change]来进行差异物筛选也是有这样的做法,但是P值和FC值都来源单元变量统计分析。

推荐使用P值<0.05 & VIP>1的筛选方法。

在此基础上要做进一步的筛选的话,有以下几个方法:

1, P值<0.05,对VIP值做排序(VIP值越大,差异代谢物越有意义)

2, VIP>1,对P值做排序(P值越小,差异代谢物越有意义)

3, 在P值<0.05 & VIP>1的范围内,对FC值做排序(大于2的FC,越大越有意义;小于0.5的FC,越小越有意义)

限定更严格的基础筛选条件,比如:P值<0.01 & VIP>2。重做以上三种方法。17为什么使用GC-MS检测样品,却很少检测到挥发性的物质?

生物样本经过提取液和样本本身会有水分,而质谱仪器不能进水,衍生化试剂遇水会分解。所以在代谢物衍生化前有干燥样本的处理。

这一处理客观上会造成挥发性物质的损失。

一般来说,生物代谢物很少具有挥发性。有的物质是不容易挥发的,那样的话,样本就要经过衍生化。衍生化的作用是使不稳定的化合物更稳定,不容易挥发的物质在GC里更容易挥发汽化。所以,在这种普通的GC-MS对生物样本进行代谢物检测,衍生化是必需的。

如果关注挥发性的物质,需要选择“顶空进样或者固相微萃取(对于含量低的物质有富集作用)利用GC-TOFMS检测”这样一个特殊的方案。18火山图是什么,有什么用?

总的说来,火山图主要展示P-value、Fold-Change这两个维度的信息(或者再此基础上再映射其他信息:比如VIP值)。这些信息都是和差异代谢物的筛选息息相关的,所以展示了差异代谢物在所有物质的分布概况。

Patti GJ, Tautenhahn R, Rinehart D, et al. A View from Above: Cloud Plots to Visualize Global Metabolomic Data. Analytical chemistry. 2013;85(2):798-804. doi:10.1021/ac3029745.19为什么有的物质正离子模式下存在,负离子模式下不存在?

这和分析物的性质是有关系的,有的物质容易带正电荷,有的物质容易带负电荷。比如说碱性化合物易带正电荷,加和质子或其他正电荷离子;酸性化合物易带负电荷,失去质子或加合其他负电荷离子。20OPLS-DA模型中Q2值越接近1越好?那如果数值比较小(比如0.5左右),数值还可以用吗?

可以用的,一般Q2值越接近1,模型可预测性越好,若数值不大,也不代表模型不可用,是可以用的,只是用Q2值来做判断参考,并不是绝对的。21PLS-DA与OPLS-DA模型有什么区别?

OPLS-DA比PLS-DA多了一个正交换算,把与模型分类不相关信号过滤掉,OPLS-DA解释能力更强。比如组间差异比较小,组内差异比较大的情况,用PLS-DA VIP筛出的可能是组内差异变量,容易误导,OPLS-DA是PLS-DA的升级版,全面优于PLS-DA。22PCA和OPLS-DA模型中,有些样本偏离了95%置信区间,这种数据需要剔除吗?

不建议剔除,因为我们设置生物学重复本来就是为了减少误差,这种数据中出现一两个样本偏离属于正常情况,而且也不会影响后续的数据分析,所以无需对数据进行剔除修改,保留其真实情况即可。23置换检验判断标准?

通常标准是R2<0.3,Q2<0.05,但有的时候样本量太少,达不到。所以只要回归线斜率是正的,就可以了。24峰面积的单位是多少?

没有单位。25峰面积是如何计算?

是根据提取离子流图进行积分的。26总离子流图的横纵坐标单位?

横轴是时间,min,纵轴是信号强度,没有单位。27UHPLC-MS能否提供色谱的波长条件?

我们是使用液相色谱串联质谱仪进行检测,使用灵敏度更高、分辨率更高、定性能力更强的质谱仪代替了光学检测器。因为使用质谱仪在检测,所以不存在检测波长一说。28GCGC-TOF-MS与GC-TOF-MS数据之间区别在哪里?

(1) 二维的无法使用Fiehn数据库中的RI;

(2) 二维检出的物质数量是一维的2倍(经验值)。29”面积归一“中的”面积“是指一个样本的总面积还是所有样本的总面积?

一个样本检测的所有物质的总面积。30为什么样本中不可能存在的物质也被检测出来了?

这个跟数据库有关系,比如植物样本,用的是综合数据库进行匹配的话,很容易出现这种情况,也有可能是前期处理有污染。              
31靶标检测也需要加内标吗?

靶标检测是不加内标的。32如何从TIC图中找到我关注物质的那个峰?

结合保留时间和m/z值寻找。33有哪些前沿的代谢组学技术?

代谢流技术、单细胞代谢组学、可以区分癌组织和正常组织的超级手术刀。34为什么对比分析只能两两对比?

主要限制在于OPLS-DA分析,进行两组以上的对比分析,OPLS-DA模型难以计算代谢物对组间差异的贡献,更大的难点在于难以给出合理的解释。35两组对比的样本数量不一致可以吗?

可以,比起两组对比更重要的是每组的生物学重复数量都要足够的多。36多平台的数据整合到一块做PCA模型可以吗?

可以,没有问题。37样本为什么需要寄送两倍以上的量?

寄送两倍以上的量是为了应对第一次实验不理想等可能的损耗,保障实验的顺利进行。38ROC是什么,判断标准是什么?

ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。一般的,AUC值越接近1,这个二值分类器越优。39色谱质谱串联的优势是什么?

使用灵敏度更高、分辨率更高、定性能力更强的质谱仪代替了光学检测器。将色谱的分离能力和质谱的分辨、定性能力强强联合,可以对更多的物质进行准确检测。40

如何获取KEGG map其他节点的注释信息?

  • 选择想要获取的KEGG ID号

  • 打开KEGG 官网,输入KEGG ID号

  • 点击help,获取对应KEGG ID号的相关信息

41热图的数据是怎么进行归一化处理的?

(每个数值-平均数)/标准差  就是标准分数(standard score)也叫z分数(z-score)。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多