代谢组学Question & Answer

栖柒七 2019-07-28

展开全文

转自：Biotree代谢组学（微信公众号）

1为什么选择代谢组学？

首先代谢组学分析的是小分子的代谢产物，如糖、有机酸、脂质、维生素、氨基酸、芳香烃之类的化合物，通常分子量在1000以内。如果关注的是小分子物质，那么采用代谢组学的方法，可以对样品内检测到的小分子物质进行定性、定量分析。

其次，不同于基因组学和蛋白组学，代谢组学的研究反映某一时刻下正在发生的生命活动情况，研究代谢物的表达量、代谢物与生理病理变化的关系，能够帮助寻找新的生物标记物，发现新的代谢途径，以及更进一步深入了解目前已知的这些途径，应用于疾病的早期诊断、药物靶点的发现、疾病的病理生理研究。2代谢组学我该选择哪个平台？

代谢组学的技术平台主要分为NMR、GC-MS、LC-MS。

NMR的特点是：

（1）无损的多参数和动态分析技术；

（2）样品需求量小，前处理比较简单，对于复杂的生物样本比较合适；

（3）检测时间短，保证样品在检测时间内维持原有性质；

（4）丰富的分子结构和动力学信息，但对读谱人员的要求高；

（5）同时完成定性定量分析；

但NMR的缺点是灵敏度低，检测动态范围有限。

GC-MS和LC-MS的特点是结合了色谱良好的分离能力和质谱的普适性、高灵敏度以及专一性，具体而言GC-MS分辨率、选择性好，数据库较为健全，但样品处理过程繁琐、难挥发性物质或半挥发性物质需要衍生化。

LC-MS灵敏度、分辨率高，可以分析不稳定、不易衍生化、难挥发和分子量大的代谢物，可对极性化合物有较好的检测。但数据库不健全，可鉴定的化合物有限。

因此在选择平台时应结合自身样本情况与个体需求，综合考虑。3做了代谢组学发现没有差异，该怎么办？

如果没有找到差异代谢物，那么还可以就检测到的物质进行KEGG Patheway分析，即对代谢物参与的代谢通路进行研究，观察是否有其他的补给途径、代谢途径与疾病之间是否存在一定的关联性。4该取什么类型的样本，该怎么处理样本？

代谢研究的样本处理和采集总的来说遵从“保持最鲜活的状态”原则，通过低温、淬灭的方法阻止离体后的代谢活动。

一般而言，样本的类型主要分为几类：血清、血浆、尿液、细胞、细菌、组织、培养液、植物的花、茎、叶等。样本的采集需要客户结合自己的情况做判断，如果还是不知道，可以参考相关文献或者向我们的技术工程师咨询（可以在微信后台留言“姓名电话问题哦）。5结果是什么样的，都包含哪些内容？

这跟项目协议有关，如果只是做检测，到最后只会提供一份定性物质列表的信息。如果项目内容还包括分析，那么我们还会对样本进行多元变量分析（PCA，OPLS-DA），差异物筛选，层次聚类分析，通路富集分析。对于个性化的定制分析，我们会结合顾客的具体情况与需求来出报告表。6我想开展代谢组学研究，如何设计实验？有哪些地方需要特别注意？

第一明确实验目的：

需要检查哪些样本设置正确的组别、样本的采集的部位、数量和处理方法、需要检测哪些物质、定性及定量的精度要求等；

第二选择合适的平台：

根据实验目的选择合适实验平台，不同平台对物质的检测以及定性定量能力不同：GC-MS适合挥发性物质，LC-MS适合极性物质，盲筛适合差异化合物的筛选，靶标适合准确定量；

第三选择合适的分析方案：

结合科研目的和意义的解读选择适合的分析方案：是单纯的筛选差异物、关注特定物质的表达差异、还是需要查询代谢通路以及做多组学的关联分析等。7BIOTREE有哪些质控手段？

内标和QC。内标可以用来观察保留时间是否偏移，以及对数据做规一化处理。QC用来反映仪器的稳定性，批间矫正，筛选feature。8如何说明实验没问题？

QC稳定、样品聚类，内标保留时间偏差小，物质的检出率高等都可以说明实验没问题。9为什么需要这么多生物学重复？

相较于基因和蛋白，代谢物处于生命活动的下游，动态波动性大。因此需要很多生物学重复来增加数据的可靠性和说服力。10为什么不能分两批检测？

最好不要分成两批检测，因为这两个时间点仪器的响应会发生变化，这样可能导致的问题是一些含量低的物质可能只在一个批次里被检出。11为什么某个物质明明在这个样本中占很大比重而实际结果远低于这个比重？

代谢物在仪器中的响应与其结构有关系，浓度与在样本中的权重不是对应关系。通常我们对定性出来的代谢物只做横向样本间的对比，而不做纵向的比较。12把数据导入SIMCA后，看到我们的试验样本（组1和组2）PCA上区分不开来，但是QC和试验样本间却有比较明显的区分，这是为什么？

首先，PCA分析的图是数据的一个投影，看到什么样的结果和投影的角度有关系，所以很多时候我们要看一看3D的PCA，但即使是3D的PCA，也只是原数据的投影。

再者，我们做QC这个样本是起质控的作用，关注的是QC组本身是不是有很好的聚集。QC聚集好表示实验稳定。

然后，QC虽然是多组样本的混合，会有一个向各组中心趋近的这样一个可能，但是不代表这样的趋近一定是线性的，可能会有偏移。

Anyway , QC组应该被视为一个新的样本组，它继承了各个组的部分信息，但PCA不一定会在中间。13

什么是韦恩图？有什么用？

Venn Diagram

维恩图(也称为一组图或逻辑图)，用于显示一个有限的不同集合之间的所有可能的逻辑关系。14检测结果的物质名称都是英文的，我需要中文名称怎么办？

建议根据物质的KEGG名称和CAS号在“爱化学”（http://www./）网站查询中文名称。15PCA分析的原理是什么？

每一个样本检测了许多指标（具体的话就是代谢物的含量），每个指标表示一个维度，这样的话，每个样本都是一个多维的向量。在空间里看就是一团高维的数据云。PCA也就是主成分分析方法会通过投影的方式来对这个数据云进行降维处理，从而到达建立合适的模型来解释和预测的目的。PCA得分图展示的是PC1(第一主成分)和PC2（第二主成分）这两个方向构成的平面上的投影。PC1、PC2这两个方向是虚拟的不是具体的变量，是全部变量贡献的。16如何对差异代谢物做进一步的筛选？

一般是使用P值<0.05 & VIP>1 这样的卡值来进行差异物的筛选。

P值来源单元变量统计分析，VIP值来源于多元变量统计分析（来源于OPLS-DA模型）表征该变量对两组差异的贡献值，当然VIP值越大对差异贡献越大。

使用P值<0.05 & (FC>2 或 FC<0.5) [FC= Fold change]来进行差异物筛选也是有这样的做法，但是P值和FC值都来源单元变量统计分析。

推荐使用P值<0.05 & VIP>1的筛选方法。

在此基础上要做进一步的筛选的话，有以下几个方法：

1， P值<0.05，对VIP值做排序（VIP值越大，差异代谢物越有意义）

2， VIP>1，对P值做排序（P值越小，差异代谢物越有意义）

3，在P值<0.05 & VIP>1的范围内，对FC值做排序（大于2的FC，越大越有意义；小于0.5的FC，越小越有意义）

限定更严格的基础筛选条件，比如：P值<0.01 & VIP>2。重做以上三种方法。17为什么使用GC-MS检测样品，却很少检测到挥发性的物质？

生物样本经过提取液和样本本身会有水分，而质谱仪器不能进水，衍生化试剂遇水会分解。所以在代谢物衍生化前有干燥样本的处理。

这一处理客观上会造成挥发性物质的损失。

一般来说，生物代谢物很少具有挥发性。有的物质是不容易挥发的，那样的话，样本就要经过衍生化。衍生化的作用是使不稳定的化合物更稳定，不容易挥发的物质在GC里更容易挥发汽化。所以，在这种普通的GC-MS对生物样本进行代谢物检测，衍生化是必需的。

如果关注挥发性的物质，需要选择“顶空进样或者固相微萃取（对于含量低的物质有富集作用）利用GC-TOFMS检测”这样一个特殊的方案。18火山图是什么，有什么用？

总的说来，火山图主要展示P-value、Fold-Change这两个维度的信息（或者再此基础上再映射其他信息：比如VIP值）。这些信息都是和差异代谢物的筛选息息相关的，所以展示了差异代谢物在所有物质的分布概况。

Patti GJ, Tautenhahn R, Rinehart D, et al. A View from Above: Cloud Plots to Visualize Global Metabolomic Data. Analytical chemistry. 2013;85(2):798-804. doi:10.1021/ac3029745.19为什么有的物质正离子模式下存在，负离子模式下不存在？

这和分析物的性质是有关系的，有的物质容易带正电荷，有的物质容易带负电荷。比如说碱性化合物易带正电荷，加和质子或其他正电荷离子；酸性化合物易带负电荷，失去质子或加合其他负电荷离子。20OPLS-DA模型中Q²值越接近1越好？那如果数值比较小（比如0.5左右），数值还可以用吗？

可以用的，一般Q2值越接近1，模型可预测性越好，若数值不大，也不代表模型不可用，是可以用的，只是用Q2值来做判断参考，并不是绝对的。21PLS-DA与OPLS-DA模型有什么区别？

OPLS-DA比PLS-DA多了一个正交换算，把与模型分类不相关信号过滤掉，OPLS-DA解释能力更强。比如组间差异比较小，组内差异比较大的情况，用PLS-DA VIP筛出的可能是组内差异变量，容易误导，OPLS-DA是PLS-DA的升级版，全面优于PLS-DA。22PCA和OPLS-DA模型中，有些样本偏离了95%置信区间，这种数据需要剔除吗？

不建议剔除，因为我们设置生物学重复本来就是为了减少误差，这种数据中出现一两个样本偏离属于正常情况，而且也不会影响后续的数据分析，所以无需对数据进行剔除修改，保留其真实情况即可。23置换检验判断标准？

通常标准是R²<0.3，Q²<0.05，但有的时候样本量太少，达不到。所以只要回归线斜率是正的，就可以了。24峰面积的单位是多少？

没有单位。25峰面积是如何计算？

是根据提取离子流图进行积分的。26总离子流图的横纵坐标单位？

横轴是时间，min，纵轴是信号强度，没有单位。27UHPLC-MS能否提供色谱的波长条件？

我们是使用液相色谱串联质谱仪进行检测，使用灵敏度更高、分辨率更高、定性能力更强的质谱仪代替了光学检测器。因为使用质谱仪在检测，所以不存在检测波长一说。28GCGC-TOF-MS与GC-TOF-MS数据之间区别在哪里？

（1）二维的无法使用Fiehn数据库中的RI；

（2）二维检出的物质数量是一维的2倍（经验值）。29”面积归一“中的”面积“是指一个样本的总面积还是所有样本的总面积？

一个样本检测的所有物质的总面积。30为什么样本中不可能存在的物质也被检测出来了？

这个跟数据库有关系，比如植物样本，用的是综合数据库进行匹配的话，很容易出现这种情况，也有可能是前期处理有污染。
31靶标检测也需要加内标吗？

靶标检测是不加内标的。32如何从TIC图中找到我关注物质的那个峰？

结合保留时间和m/z值寻找。33有哪些前沿的代谢组学技术？