相信很多研究者都有这样的体会,在阅读文章时,看到了作者在数据处理时使用了一种方法,认为可以借鉴到自己的文章中,但是当我们着手去进行具体的操作时,却发现,文章中提供的信息并不能使我们完全了解和运用该方法。有的只提供了所使用的软件的名称,有的提供了所使用的统计方法,而并未提及在操作过程中所使用的具体的参数,这并不是作者有意而为,只是可能忽略这些参数对于想学习该方法的研究者来说是非常重要的。那么,在文章发表时,数据分析部分应该提供什么样的信息呢?
关于在数据分析过程中应该提供什么样的信息并没有统一的标准。 有研究者建议如下:数据分析中,每一步的操作都需要充分地说明,包括QC的步骤,缺失值的填充,以及特别重要的数据处理的顺序。
单变量分析: 单变量分析可以直接用来筛选差异性化合物;也可以在多元统计分析之前进行数据的预先筛选,用以降低数据集的大小,虽然这一做法并不推荐;此外,在多元统计分析筛选出对分类贡献较大的标记物之后,可以用单变量分析来验证这些化合物在不同组别之间的差异有无统计学意义。 单变量分析的目的,以及在整个数据分析流程中所处的位置(如多元统计分析之前还是之后进行的)需要告知读者。在分析时,数据集的大小(所包含数据的数量)需要提供;在分析之后有无对数据进行取舍,为什么进行取舍都应提供给读者。
多元统计分析 无监督分析: 非监督分析将来自不同组别的数据进行可视化,用以观察其在空间中的分组情况。在非监督分析中需要提供的信息包括:数据集的大小;在非监督分析之前有无对数据进行过滤或者筛选,以及进行预先操作的原因,以便于读者判断分析中的分组有无意义;模型建立必要的参数如PCA中所选择主成份的个数以及其所能代表的原始数据的百分比等信息。 有监督分析:
数据集的大小也是我们需要重点汇报的信息,因为在数据分析时改变数据集的大小会产生有偏向性的结果,如在多元统计分析(无监督和有监督分析)前,对数据进行筛选,挑选与组别相关的数据进行下一步分析。因此,对于数据集的变化的如实描述,对于分析方法的可靠性和结果的有效性至关重要。
代谢组学的数据分析是非常复杂,它包括了很多可以用不同方式完成的步骤,这其中有些步骤是可做可不做的,但是有些则是根据研究者的目的需要逐步实施的。如果缺乏一个标准的报告内容标准,则会阻碍方法之间的比较;另外如果有多个方法都可以用于分析数据,研究者可能尝试所有的方法,却在得到的结果中只报道满足其需要的结果。为了解决这一问题,需要要求研究者提供所有的数据分析的结果,而不仅仅是那些“最好”的结果。因为如果读者去猜测一个报告是否完整,或者是否尝试其他统计分析的方法是非常困难也是不太可能的。 尽管完美的数据重复在临床前研究已经被证明是不可能的,但是良好计算机完成结果的重复性是容易实现的。通过文章中提供的数据以及代码来进行重复性验证是一个非常繁重的工作,而且也没有审稿人或者编辑强制这么做,但是在文章发表时至少需要提供一个符合逻辑的操作流程图。一个图示的工作流程图可以帮助读者直观的了解具体的分析步骤;除了整体的工作流程图之外,还应该提供一个数据分析的详细流程图,包括数据的预处理和统计分析等步骤,用以展示在关键步骤的具体操作以及操作的顺序。
许多生物信息学研究者都是自我学习而且与具体的实验操作完全隔离。此外,在系统生物学实验中,没有或者很少有所谓的标准的操作,他们在进行实验时,第一个步往往是搜索已发表的相关文献,去查看有那些数据分析方法已经被使用。如果在发表文章时,对于数据分析的细节报道的不是很详细,就会使任何一个想要从这些报道中学习相关方法的研究者感到非常困难。 参考文献: Considine, E.C., Thomas, G., Boulesteix, A.L. et al. Critical review of reporting of the dataanalysis step in metabolomics. Metabolomics, 2018, 14(1): 7. Brereton, R. G., & Lloyd, G. R. Partial least squaresdiscriminant analysis: Taking the magic away. Journal of Chemometrics, 2014, 28(4), 213-225. Gromski, P. S., et al. A tutorial review: Metabolomics and partialleast squares-discriminant analysis-A marriage of convenience or a shotgun wedding. Analytica ChimicaActa, 2015, 879, 10-23. |
|
来自: terminator_523 > 《代谢组学》