手把手带你一步一步写一篇标志物诊断效能文章（二）

微笑如酒 2018-05-23

展开全文

下面我以两篇顶级杂志的文献为例，从实验设计、数据分析一直到文章呈现的整个过程，结合我自己在研究生期间做的标志物研究的经验，详细说一下此种类型文章的套路。

先简单介绍一下我熟悉的肝癌领域的两篇文章：

第一篇是常规的蛋白标志物在中国人群中的验证，发表在Lancet Oncology，当年影响因子25分，以下简称LO文章。

第二篇是近两年很火的miRNA分子作为肝癌标志物的验证，发表在Journal of Hepatology，当年影响因子9分，以下简称JH文章。

在实验设计好获得很多原始数据之后，接下来就是将数据变成一幅幅图表的过程，这也是里面也是套路最多的部分，也基本上已经形成一定的流程，但也有一些有变数的地方，成为很多文章的特色之处。

这部分内容开始先介绍拿到原始数据后怎么处理以及注意事项，然后以两篇文章为例介绍标志物诊断效能的数据一般处理流程，以及在数据处理过程中的一些变数，最后进行总结并介绍诊断性文章数据处理的基本原则和值得注意的地方。

1、原始数据拿到后怎么进行初步处理？

如果最开始设计得当，应该得到一个类似如下的Excel表格，得到这样的表格基本上就完成了数据分析的一半。

在拿到这个表格时，需要考虑如下几个问题：

一是数据的单位问题：数据的单位是不是前后统一，查阅相关文献，所用的单位是不是国际通用的单位。

二是数据的值的问题：在进行数据分析时，是转换成对数形式还是科学计数法形式，同时需要注意记录各指标的常用的cut-off值。

三是数据的类型和转化问题：对于描述性的信息，最好转化为可分析的分级数据或者二分类数据；对于定性数据，最好转化为二分类指标；对于定量数据，也可以按照一定的分层转化成分级数据或二分类数据，或者不处理；对于不止一个数据的指标，保留最重要的或者分成两个指标分析，或者利用布尔运算变成一个指标。

四是数据的合并问题：很有可能存在的情况是，不同的指标来源于不同的数据库，出现多个Excel表格的情况中，这时就需要熟练操作将多个Excel合并成一个如上图所示的Excel。如果在数据库含有几万甚至几十万的大量数据时，会需要更加熟练的Excel操作技术，单靠vlookup函数很难搞定，而且会侵占大量内存甚至造成电脑死机。这是一个大的板块，不是本次的重点，有机会单独说一下数据的合并问题。

五是数据缺失的问题：不管是回顾性研究还是前瞻性研究，很难保证数据一个不缺，尤其是回顾性研究，缺失数据很常见。缺失数据的处理是统计学上的一大章内容，有多种方法，但私以为一般的临床研究很难涉及到很多高深的缺失数据处理方法。我处理缺失数据的方法一般就两种，对于一般性的基础信息资料，不涉及到入组标准的指标可以直接忽略，对于有些重要的指标，可以用前后两次时间点的均值来代替。

六是保证数据的真实性和注意保护患者的隐私：避免姓名、ID等的泄露。

2、诊断效能研究数据处理的一般流程。

当经过上一步的数据处理之后，接下来就可以进行下一步的统计分析。诊断性研究统计分析的核心有两个，ROC曲线分析和四个表检验分析，一个图加一个表，再加上附加的加强验证的统计分析，下面按照顺序进行分别介绍。

在所有的统计分析之前，入组对象的基础信息对比是必不可少的，一般以一个表格呈现，它并不是一个例行公事搬的存在，而是可以反映了实验设计的科学性和实验结论的可推广性。如这篇JH文章所示，这个表格一般横坐标是各分组疾病名称及其数量和P值，纵坐标是各指标名称，包括患者的人口学特征信息和各分析的临床指标。P值可以设置不同组患者之间的多个比较，临床指标的选择包括一般性指标和与研究疾病紧密相关的指标。需要注意的是不同的指标的数据类型不同，因此所用的统计方法也大相径庭，一般包括T检验或M-W检验和卡方检验。

接下来是常规的标志物水平验证。在进行标志物的诊断研究中，一定有一个“金标准（goldcriterion）”，是进行疾病判断的准则；其次一般有一个临床已经使用很久的标志物，用来对比两者的效能差别或者联合诊断的效能。因此，下面的统计分析就是入选各组的标志物水平比较，包括研究的标志物和用来对比的标志物的各组水平比较，如LO文章的图2所示。

其次是两种标志物的相关性分析或者在组织中和血液中的相关性分析图，还有疾病治疗前后的变化图，这在LO文章和JH文章中都有体现，如下图所示。

接下来是第一个重点，ROC曲线的分析。ROC曲线分析可谓五花八门，最基本的就是疾病组和对照组对比的ROC曲线，其次就是两者对比联合的ROC曲线、不同的对比组的ROC曲线。需要注意的地方：第一个是ROC曲线分析除了得出一个图形之外，还包括了一个重要的指标AUROC或称为二分类的C-index值及其95%可信区间，以及另一个重要的指标cut-off值，在作图中可以同时列出来，同时对于同组人群中两种标志物的对比还可以使用DeLong检验得出P值来比较两组的区分效能；第二个需要注意的地方是对于不同对照组的选取要根据疾病的实际关注点进行选取，如疾病的早期晚期、不同的分层等，具体可参照LO文章的对照组分析（如下图）。

下一个统计分析是另一个重点，四格表检验，得出的值包括特异性、敏感度、正确率、阳性/阴性预测值、阳性/阴性似然比、Kappa值等，通常以一个表格列出来，这在LO文章和JH文章中都有相关结果呈现，如图所示。

这其中的变数包括cut-off值和不同对照组的选取。对照组选择同ROC曲线分析的原则一致，cut-off值的选择则有两种方法，一个是常用的cut-off值，另一个是利用ROC曲线计算得出的cut-off值，一般来说在研究中会选择计算得出的cut-off值。从两标志物的联合ROC曲线的绘制到四个表统计结果生成的统计软件实现的具体步骤，请关注之后的单独内容。

主体分析完成之后，为了充实文章的内容，可以加一些其他分析结果。如果有队列随访数据，可以加上疾病的生存分析结果，包括生存曲线和cox危险因素分析结果；如果有组织标本的标志物检测数据，可以加上血清和组织对比和相关性检测数据；如果没有其他结果，可以分析标志物水平高和低两组人群的差异，标志物与其他关键指标的correlation分析结果表或者logistics回归分析相关性的结果。JH文章和LO文章给出了一些分析，如图。