我们汇总了一下科研论文中统计方法的常用表述

菁华菁华 2018-09-20

展开全文

本文选自《疯狂统计学》

第五部分·统计分析方法表述

作者 | 周支瑞胡志德张天嵩

在开始本文的话题之前，请大家先问自己一个问题：

听到最多的回答往往是

“我见有一篇与我类似的论文中就是这么写的”。

对于我们临床医生来说，统计学仅仅是工具，可以解决我们的临床问题即可，有时并不需要刨根问底。

从学习的规律上来讲，所有的学习都是从模仿开始，但模仿也是需要动脑的。那么，有没有好的统计方法表达的模板可供参考?

当然有，可以像前面大多数临床医生的选择一样，找一篇与自己研究类似的好的论文去模仿他的统计方法的表述。为了方便同行们学习，本文把医学科研论文写作中的常用统计学方法罗列出来，供大家模仿和参考。

统计方法表述汇总

1. 样本量计算的表述

样本量计算的类型、方法繁多，一般来说在论文写作时需要介绍试验设计类型：非劣效性设计还是优效性设计、用什么软件计算样本量、具体什么计算方法或计算公式（此处也可直接引用样本量计算方法的参考文献），以及检验水准、把握度等样本量估算的基本参数。论文中如果涉及样本量计算，则其计算的方法一般在统计方法部分优先表达。关于样本量计算方法的表述，我们列举了两种常见的类型：

展开剩余86%

① 两独立组比较（样本量应该以主要结局指标来计算）

根据以往文献报道，两组主要结局指标均值和标准差分别为

X1 ± SD1和 X2 ± SD2

注：如果主要结局指标是二分类资料，一般需要知道试验组结局事件发生率，对照组结局事件发生率；或者知道某一组发生率及两组的率差等。

本例中我们是非劣效性设计，设定检验水准为α =0.05，把握度1 −β =0.8（可设为 0.9、0.95），按照1 : 1平行分组。

根据上述参数，利用X软件的X方法（也可直接列出公式，此处需表明样本量计算的具体方法），计算试验组和对照组各需样本数为X例。

注：如果可能有失访，需要考虑失访率，在原本计算的基础上可能失访的人数。

② 诊断试验样本量计算

根据以往文献报道（或预实验的结果），已知待评价指标诊断某疾病的的灵敏度和特异度分别为0.8（也可以按照既往文献报道或预实验获得的待评价指标的ROC曲线下面积来计算样本量），设定检验水准为α =0.05，把握度1 −β =0.8。根据上述参数，利用X软件X方法（也可直接列出计算公式，此处需表明样本量计算的具体方法），计算所需样本量共计X例。

2. 两独立组比较（成组比较）

如果你的论文的内容报告一个随机对照试验的结果，论文中做了两独立组的比较，可以参考以下表述：

对于连续型资料，首先进行正态性检验，如果各组均满足正态性且两组间方差齐，我们采用t 检验进行组间比较；若以上条件不满足则考虑非参数Mann-Whitney U检验。

对于分类资料，无序分类资料采用卡方检验，等级资料采用非参数Mann-Whitney U检验。 P < 0.05认为有统计学意义。所有检验均为双侧检验。

3. 多独立组比较（独立成组）

如果你的论文是做多组间比较，可以参考以下写法：

对于连续型资料如果服从正态分布，采用单因素方差分析（one-way ANOVA）进行组间比较，如果组间差异有统计学意义，进一步采用SNK方法进行两两比较（或LSD-t或Tukey等方法；或者采用Bonferroni法对多重比较的检验水准进行校正）。

若资料不服从正态分布，组间比较采用Kruskal-Wallis H 检验，当组间比较有统计学差异时，进一步采用DSCF法进行多重比较（也可以使用其它校正方法）。

多组比较时无序分类资料采用 χ 2 检验，等级资料采用 Kruskal-Wallis H检验。 P <0.05认为有统计学意义。所有检验均为双侧检验。

4. 回顾性研究（多因素分析）

假定你的论文是报告危险因素、预后因素筛选等，比如回顾性研究，或其他混杂因素较多的研究，可采用回归分析，统计方法表达可以参考以下写法：

因本研究中影响结果的因素较多，我们首先采用单因素Logistic回归（或单因素线性回归，或单因素Cox回归等）进行影响因素的初筛，变量筛选的检验水准设为 α =0.1（根据实际情况，也可以设为变量筛选标准为0.05、0.15或0.2等，一般不超过0.2），即我们把单因素Logistic回归分析 P <0.1的变量纳入多因素Logistic回归（或多元线性回归、多因素Cox回归等）。多因素分析中 P <0.05 认为有统计学意义。所有检验均为双侧检验。

5. 诊断试验

如果你的论文是诊断试验报告，可以参考以下两类表述方法：

① 待评价诊断指标为连续型变量

如果你的论文是做诊断试验，且参考诊断标准是二分类资料，比如病理检查结果：恶性或良性，待评价的诊断指标是连续型资料，可以参考以下写法：

本研究以X为参考诊断标准，然后进行ROC分析并绘制ROC曲线，计算ROC曲线下面积AUC及其95%可信区间，如果AUC>0.5且与0.5相比差异具有统计学意义，则认为该诊断指标具有一定的诊断价值。在ROC曲线上以约登指数（敏感度特异度 − 1）最大的点作为cut-oﬀ点。 P <0.05认为有统计学意义。所有检验均为双侧检验。

② 待评价诊断指标为二分类变量

如果你的论文是做诊断试验，且参考诊断标准是二分类资料，待评价的诊断指标也是二分类资料，可以参考以下写法：

本研究以X方法为参考诊断标准（或参照），并计算待评价的诊断方法的灵敏度、特异度、阳性预测值和阴性预测值等指标。计算二者的Kappa值（一致性指数）。Kappa值越高，说明二者的一致性越强，一般认为Kappa>0.4即为两诊断方法具有一致性，Kappa>0.7即为两诊断方法具有较好的一致性。

③ 待评价指标为等级资料

待评价指标为等级资料时，当等级水平不小于4个可以参照连续变量处理，当等级水平<4个可参考分类变量处理。

6. 含有重复测量因素的组间比较

如果你的论文报告的是组间比较结果，但是含有重复测量因素，可以参考以下写法：

本研究中含有X个实验因素，每个实验因素含有Y个水平，其中某因素包含多次重复测量，因此考虑采用重复测量方差分析或两因素方差分析方法（two-way ANOVA）进行统计分析。分别比较各处理组间、不同时间点之间是否具有统计学差异。同时对组间和时间因素进行交互分析，探索各组间的变化趋势是否有差异。如果交互检验差异具有统计学意义，提示各组随时间变化的趋势可能不同。 P <0.05认为有统计学意义。所有检验均为双侧检验。

7. 生存资料

如果你的论文报告的是生存分析的结果，可以参考以下表述方法：

本研究采用Kaplan-meier法对生存资料进行描述，并采用Log-rank检验（或Breslow或Tarone-Ware）对生存曲线进行比较。生存资料的多因素分析，如果满足等比例风险假定，采用Cox回归；如果等比例风险假定不满足，则考虑采用非等比例Cox回归分析研究预后因素的影响。采用单因素的Cox回归对预后因素初筛，变量筛选的检验水准设为 α =0.1（根据实际情况，也可以设为变量筛选标准为0.05、0.15或0.2等，一般不超过0.2），即我们把单因素Cox回归分析 P <0.1的因素纳入多因素Cox回归等。 P <0.05认为有统计学意义。所有检验均为双侧检验。

8. Meta分析的统计方法表达

如果你报告的是一篇Meta分析，可以参考以下表述方法：

采用X软件进行统计分析，计量资料采用加权均数差（MD）或标准化均数差（SMD）为统计指标；二分类资料采用风险比（RR）为统计指标，并计算其95%可信区间（CI）。研究间异质性采用卡方检验并计算I 2 统计量，当结果异质性可接受（ P > 0.10， I 2 < 50%）时，采用固定效应模型；如研究间存在显著异质性（ P < 0.10， I 2 > 50%）时，分析异质性产生的原因，若无临床异质性，采用随机效应模型；若有临床异质性可根据其来源做亚组分析或是敏感性分析；若异质性过大，则采用描述性分析。无法合并的指标采用描述性方法表示。

以上内容总结了医学论文中的常用医学统计方法的中英文表述，基本涵盖了医学科研论文的大部分类型，供读者参考。正如前文所述，模仿是学习的第一步，认真模仿，并在此基础上体会这些统计方法背后的深层次含义才会在论文写作中游刃有余。有关统计方法的选择读者朋友也可以参看本书的姊妹篇《傻瓜统计学》与《聪明统计学》。

下周，我们将带来万众期待的Meta分析

如果还想偷看关于医学统计学的哪些内容，欢迎留言（我会告诉你们扫一扫下面的海报二维码有《疯狂统计学》目录吗