代谢组学数据分析应该提供哪些信息？

terminator_523 2018-01-25

展开全文

相信很多研究者都有这样的体会，在阅读文章时，看到了作者在数据处理时使用了一种方法，认为可以借鉴到自己的文章中，但是当我们着手去进行具体的操作时，却发现，文章中提供的信息并不能使我们完全了解和运用该方法。有的只提供了所使用的软件的名称，有的提供了所使用的统计方法，而并未提及在操作过程中所使用的具体的参数，这并不是作者有意而为，只是可能忽略这些参数对于想学习该方法的研究者来说是非常重要的。那么，在文章发表时，数据分析部分应该提供什么样的信息呢？

关于在数据分析过程中应该提供什么样的信息并没有统一的标准。

有研究者建议如下：数据分析中，每一步的操作都需要充分地说明，包括QC的步骤，缺失值的填充，以及特别重要的数据处理的顺序。

单变量分析：

单变量分析可以直接用来筛选差异性化合物；也可以在多元统计分析之前进行数据的预先筛选，用以降低数据集的大小，虽然这一做法并不推荐；此外，在多元统计分析筛选出对分类贡献较大的标记物之后，可以用单变量分析来验证这些化合物在不同组别之间的差异有无统计学意义。

单变量分析的目的，以及在整个数据分析流程中所处的位置（如多元统计分析之前还是之后进行的）需要告知读者。在分析时，数据集的大小（所包含数据的数量）需要提供；在分析之后有无对数据进行取舍，为什么进行取舍都应提供给读者。

多元统计分析

无监督分析：

非监督分析将来自不同组别的数据进行可视化，用以观察其在空间中的分组情况。在非监督分析中需要提供的信息包括：数据集的大小；在非监督分析之前有无对数据进行过滤或者筛选，以及进行预先操作的原因，以便于读者判断分析中的分组有无意义；模型建立必要的参数如PCA中所选择主成份的个数以及其所能代表的原始数据的百分比等信息。

有监督分析：

有监督分析通常用来挑选对分类贡献较大的化合物（标记物）。进入这一步分析的数据集需要做出解释，特别是如果数据经过过滤或者预先的筛选以达到理想的分类的目的时。PLS-DA是目前代谢组学研究中最常用的用来挑选标记物的有监督分析方法。
关于为什么大多数研究喜欢用PLS-DA，有研究指出其原因有两个，第一个是研究者习惯使用这一方法；第二个原因是因为几乎所有的多元统计分析软件都包含这一方法。但是报道也指出，由于现在使用PLS-DA的研究者通常不是科班统计出身，他们并不知道如何去优化模型的参数，所以这个方法可能并不是最适合代谢组学数据分析的算法。这一现象也在近期的文章中得到证实，在这些文章中，几乎没有提及建模过程中使用的参数，以及选择主成份个数的细节信息。
当我们使用有监督方法分析数据时，应该提供所有相关的参数，以及如何挑选和优化主成份的个数等信息。如果研究者并未对参数进行挑选或者优化，而是使用了软件包或者程序中的默认参数，那么使用的参数也许要提供。这一要求对于数据分析者来说非常有帮助，因为这样可以鼓励分析者反复的思考自己所使用的分析参数；注意不同的参数选项；同时也可以切实地观察到不同的参数对分析结果的影响。

数据集的大小也是我们需要重点汇报的信息，因为在数据分析时改变数据集的大小会产生有偏向性的结果，如在多元统计分析（无监督和有监督分析）前，对数据进行筛选，挑选与组别相关的数据进行下一步分析。因此，对于数据集的变化的如实描述，对于分析方法的可靠性和结果的有效性至关重要。

代谢组学的数据分析是非常复杂，它包括了很多可以用不同方式完成的步骤，这其中有些步骤是可做可不做的，但是有些则是根据研究者的目的需要逐步实施的。如果缺乏一个标准的报告内容标准，则会阻碍方法之间的比较；另外如果有多个方法都可以用于分析数据，研究者可能尝试所有的方法，却在得到的结果中只报道满足其需要的结果。为了解决这一问题，需要要求研究者提供所有的数据分析的结果，而不仅仅是那些“最好”的结果。因为如果读者去猜测一个报告是否完整，或者是否尝试其他统计分析的方法是非常困难也是不太可能的。

尽管完美的数据重复在临床前研究已经被证明是不可能的，但是良好计算机完成结果的重复性是容易实现的。通过文章中提供的数据以及代码来进行重复性验证是一个非常繁重的工作，而且也没有审稿人或者编辑强制这么做，但是在文章发表时至少需要提供一个符合逻辑的操作流程图。一个图示的工作流程图可以帮助读者直观的了解具体的分析步骤；除了整体的工作流程图之外，还应该提供一个数据分析的详细流程图，包括数据的预处理和统计分析等步骤，用以展示在关键步骤的具体操作以及操作的顺序。

许多生物信息学研究者都是自我学习而且与具体的实验操作完全隔离。此外，在系统生物学实验中，没有或者很少有所谓的标准的操作，他们在进行实验时，第一个步往往是搜索已发表的相关文献，去查看有那些数据分析方法已经被使用。如果在发表文章时，对于数据分析的细节报道的不是很详细，就会使任何一个想要从这些报道中学习相关方法的研究者感到非常困难。

参考文献：

Considine, E.C., Thomas, G., Boulesteix, A.L. et al. Critical review of reporting of the dataanalysis step in metabolomics. Metabolomics, 2018, 14(1): 7.

Brereton, R. G., & Lloyd, G. R. Partial least squaresdiscriminant analysis: Taking the magic away. Journal of Chemometrics, 2014, 28(4), 213-225.

Gromski, P. S., et al. A tutorial review: Metabolomics and partialleast squares-discriminant analysis-A marriage of convenience or a shotgun wedding. Analytica ChimicaActa, 2015, 879, 10-23.