医学研究统计分析与报告如何开展？请看内科学年鉴Ann Intern Med的统计要求

AVB05 2023-11-18 发布于湖南

展开全文

统计研究做好真不容易！国内统计学思维与方法又严重落后，什么样的统计策略才是目前国际潮流的呢？我们公众号讨论过不少。

现在我拿出压箱底的干货之一：内科学年鉴（Annals of Internal Medicine)的统计分析指南。

美国医师协会的杂志Ann Intern Med（影响因子17.0左右）是医学界十分具有影响力的期刊。它里面有一份详细的投稿论文的统计学要求，我认为很多的东西是我们国内杂志社应该学习的，特翻译过来并进行解读。

我将分为4个章节说明内科学年鉴的统计学要求。

第1篇结果报告需要注意的细节

第2篇统计分析方法和效应评估

第3篇缺失、混杂和P值

第4篇 Meta分析

有兴趣的朋友们可以一起学习和感悟！

一、结果报告需要注意的细节

1.统计描述的频率（%）Percentages

内科学年鉴认为一把情况下样本量大于200，百分比只要报告一位小数即可，如果样本量小于200，小数点位也没有意义了，建议只使用XX%而不是xx.x%甚至是xx.xx%来表达。

郑老师：正合我意也，国内文字动辄2位小数甚至更多，没有任何意义。我犹记得当年读博士时，伦敦大学学院的何丽莎教授对我说过，不用那么精确！

2.标准差Standard deviations

我们知道国内的人喜欢mean ± SD来表达。我认为mean ± SD是容易误解的。现在内科学年鉴也说，建议使用“mean (SD)而不是mean ± SD来，因为mean ± SD容易带来误导，别人会以为是均数±标准误。

3.标准误Standard errors

内科学年鉴建议一般文章建议报告置信区间，而不是标准误

4.趋势“Trend”

趋势的说法，只有用在剂量反应关系方面。内科学年鉴认为我们要避免去讨论趋势性检验P接近0.05，但仍然大于0.05的趋势线结果。在这种情况下，只报告置信区间即可。

5.描述性表格 Descriptivetables

描述性研究也就是table1 的表格哦，一般简单讨论2组或多组的数据。一般报告：

如果数据正态分布，一般报告均数和标准差，而不是标准误，也就是mean ± SD

如果数据偏态分布，一般报告中位数和四分位数间距median (25^th, 75^th percentile [interquartile range,or IQR]，或者median (minimum, maximum)。

不用怎么报告P值的，因为即使是P没有统计学差异，也可能意味着不均衡（小样本时候）；P有统计学差异，也可能均衡（大样本的时候）。

郑老师：关于描述性的表格，跟本人之前的统计小食一篇论文说的几乎一样，大家可以再看下。当正态、偏态、率的数据狭路相逢，如何绘制规范医学论文表格

郑老师再云：关于均衡性结果不报告P值的说法，现在越来越流行了！代替的方法可能可以用标准化差值（具体可以看本公众号另外一篇论文：临床研究基线均衡性比较除了用P值大小来反映，还可以用这种方法！）

6.图Figures

如果需要图，请注意：

1）避免圆饼图和3D图

2）避免只有简单的直条图而没有标注数据的变异性（比如标准差）

3）如果是meta分析的的森林图，提供原始数据在图的边缘位置

4）生存曲线图，请在图的横坐标下方提供在不同时期、不同组处于风险的人数

7.可重复性Reproducibility

必须将统计学方法描述地非常仔细，让我们读者可以使用原始数据可以重复结果。

郑老师：中国人写论文的一个普遍现象是，统计方法及其简单。究根结底是统计方法不熟悉，写论文又没有专业统计分析人员一起参与。这怎么能够写出一篇好文章呢？

8.统计软件和代码Statistical software and code

要详细列出统一软件型号、厂商、功能函数、过程等等，如果是贝叶斯方法，请提供全部的代码到附录中。附录中的代码尽量条理清晰，这样便于感兴趣的读者可以进行再分析。

9.附录技术材料Technical appendix

提供更多的材料（比如敏感性分析结果）在附件中，补充正文的相关内容。

10. P值 Pvalues

P值如果在0.001 与0.20之间的，报告保留三位小数；如果大于0.2的，报告保留2位小数，如果P值小于0.001的，报告P<0.001.

郑老师：关于P值的小数点位，说法都是如果P较小时保留3位小数，P值较大时保留2位小数，但是标准没有那么统一。但总的有一条原则：如果P值<0.05，保留3位小数更加合适！这里提醒诸位，报告P值一定要斜着写。

本篇就到此结束，请关注本系列后续文章。

二、回归统计分析方法和效应评估

1. 多因素回归

1.1 自变量筛选

关于自变量筛选，Ann Intern Med说，自变量筛选不推荐基于单因素回归，挑选'statistically significant'的自变量。很多混杂因素，虽然P值>0.05,但是对于我们感兴趣的目标变量的效应有干扰，或者很多因素只在另外因素存在的时候会变成混杂因素。

郑老师：自变量筛选方面，最好不是数据驱动法，无论P值<0.05，还是<0.2，纳入多因素回归，都是一种懒人的做法。

1.2 逐步回归法?

这是诸位比较关心的事情。Ann Intern Med明确说：Authors should avoid stepwise methods of model building, except for the narrow application of hypothesis generation for subsequent studies. Stepwise methods include forward, backward, or combined procedures for the inclusion and exclusion of variables in a statistical model based on predetermined P value criteria. 这段英文翻译过来就是应该避免使用逐步回归方法进行多因素回归。

郑老师：本人在11月17日举行的“2019年杭州真实世界研究培训班”也明确指出，先单因素后多因素+逐步回归的方法是一种垃圾方法，不推荐。推荐使用DAG的方法和效应改变方法，具体可以后续关注本培训班的视频。

划重点来了！！！中山大学方积乾对此的意见是：回归分析目的很多，主要包括研究影响因素、预测结局；如果控制混杂、探讨影响因素，那么不推荐逐步回归法；但如果回归用于构建预测模型，那么逐步回归法仍然是一种好方法。

1.3 回归分析表格

Ann Intern Med认为，很多人在论文内容中提供了单因素回归分析的结果，那其实没有必要的！如果存在着混杂因素，那么单因素结果只是中间见过，在讨论和结论中没有太大价值，纯粹增加篇幅！

郑老师：我们很多中文论文就是放了单因素和多因素两个结果，实在没有必要！

2. 纵向随访分析

纵向随访分析主要基于多时间点随访数据开展回归分析，常见的是重复测量方差分析、混合效应模型等。对此，Ann Intern Med也有话要说。

1.1 对于纵向研究，我们可以汇报同组不同时间、同时不同组、以及总体上不同组效应的差异、也可以构建模型控制协变量。

1.2 纵向研究可以采用重复测量方差分析或者广义估计方程(generalized estimating equations [GEEs]）

1.3 另外一种方法，便是混合效应模型，或者说随机系数模型

1.4 纵向研究容易存在着数据缺失，因此在建模过程中，必须考虑数据缺失问题，是随机缺失还是非随机缺失。在GEE模型中，缺失必须必须是完全随机的，而随机系数模型，缺失可以针对已观察的数据是随机的，但针对未观察的数据是不随机的

3. 关于效应指标报告

3.1 论文应该报告具有临床意义的结局指标，比如OR、RR、RD等。Ann Intern Med统计指南指出，不建议报告1个单位改变所有引起的OR值或RR等，因为这样没有实际意义（比如年龄每改变一岁引起的OR值变化或者血压每改变一个单位引起的变化、BMI指数没改变一个单位引起的变化）。

郑老师：这是什么意思？我们构建回归分析的时候，效应值也就是回归系数或者EXP（b）反应的是自变量每增加一个单位，应变量改变的量。如果自变量是连续性的定量数据，得到的OR值或者RR值就是改变一个点位得到的结果。这样的结果没有意义，比如年龄增加一岁，OR值为1.005，没有太大的临床意义！建议的做法是，将年龄转为等级数据进行分析并开展趋势性检验。

3.2 效应指标都要需要同时提供置信区间。

3.3 效应指标更关注组间的比较结果，而不是组内。一般建议提供组间差异性结果，比如均属差值或者率的差值，以及置信区间！结果讨论建议从差值角度讨论而不是从P值是否小于0.05的角度。

3.4 OR值的结果解释

很多时候，我们用logistic回归分析产生的Odds ratios（OR）值来反应研究因素的效应，但是不容易解释。Ann Intern Med说不容易解释的原因是我们需要知道的：

第一，当对照组的的阳性事件发生率比较高时，我们一般会高估研究因素的效应。比如当然对照组发生率为25%的时候，我们计算出来OR值为3.0，而实际上用于准确估计效应值的RR值不过是2.0；暴露组的发生率将是对照组3倍的说法是不对的。

第二，读者很多时候更喜欢用风险增加的倍数来反应效应值，因此OR值就会带来不容易解释的局面。

因此，Ann Intern Med建议提供一个预期概率和置信区间（ predicted probabilities and confidence bounds）来反应OR值带来的信息。

3.5 HR值的结果报告

生存分析中，hazard ratios(HR)也是非常重要的结果。HR值从COX回归分析结果得到，可以反应干预因素或者暴露因素的效应。但这个结果也不容易解释，它往往和随访时间长短有关系，而且必须要要求COX回归符合等比例的的假设要求。因此这个结果往往也有误导性。Ann Intern Med建议提供给累计生存曲线，也就是Kaplan-Meier曲线结合不同时期的生存人数表来反应生存时间变化，如果存在着混杂因素，建议提供调整混杂因素后的生存曲线。

三、如何处理缺失值、混杂因素和P值的理解

1. 缺失值

对于缺失值，现在越来越多的文献进行了规定，Ann Intern Med也不例外，对此它说

1.1 对于研究因素的缺失。在包括协变量在内的研究变量。论文需要报告缺失变量的比例以及缺失数据的处理方法。在结果表格中，建议加一行或者一列陈列各个变量的及分组的缺失量。避免用一个简单的数值后者哑变量设置的方式去展示和处理缺失数据，这样都会导致偏倚。

1.2 对于研究结局的缺失。 同样，也要报告研究结局的缺失比例。写出缺失的原因和处理方法、不推荐使用最后观察值法（last observation carried forward approach (LOCF)）来填补数据，哪怕是protocol是这样设计的。即便缺失比例很低，作者应该尽量不要采用过时的或者有偏的方法去解决失访问题。合适的方法很多包括多重填补法、模式混合填补法、以及选择法等。不同的方法应该考虑数据缺失的机制。

2. 未测混杂偏倚的敏感性分析方法

混杂偏倚一般包括未测和已测，实际上我们常常挂在嘴边的混杂偏倚都是已测混杂偏倚，可以通过回归、配对、倾向得分方法进行处理。未测混杂偏倚怎么弄？国内文献很少提。Ann Intern Med提出了建议，采用敏感性分析的方法(sensitivity analysis). Ann Intern Med还推荐了一个未测混杂因素的控制方法--E value方法。有兴趣可以学习一下。

3. P值的理解

P值如何理解仍然是头大的事情，大咖纷纷打卡说不能过于依赖P值。对此，Ann Intern Med也说，理解统计结果时只盯着P值看，除此之外，要提供置信区间和效应值。不要认为P值小于0.05，在临床上就没有意义。

郑老师：我在这里也呼吁：大家无论报告OR值、还是均数的差值、率的差值，同时都需要报告置信区间和P值！

四、 Meta分析十大问题的处理方法

1.异质性的问题

在进行研究结果合并前，需要考虑各研究变异的来源，包括研究的人群，干预措施，干预的时间，对照的人群，结果的定义等。异质性主要由于方法学或临床特征的不一致所产生，所以在研究开始前要事先明确异质性的来源是哪些，并提供合理的充分的理由进行解释。

因此在文章中要描述是否在开始综述之前就确定异质性的来源，是否开展及如何开展亚组分析和敏感性分析，meta回归分析来解释异质性的来源。如果一些方法是事后加上去的，在文章中也需要明确。

2. 研究数量问题

研究的数量及各自研究的样本量决定着我们是否要纳入的这些研究，通俗的讲，如果研究数量比较多，小样本的研究就不要纳入了，如果研究的数量少，小样本的研究还是需要考虑的。

虽然说meta分析有2个研究就可以进行效应量的合并，但还需要问你自己，两个研究的结果的合并是否有临床或方法学上的意义？研究的数量少，结果的意义就差。

当纳入研究少于10篇，异质性的统计分析结果或森林图的分布还不足以提供使用哪种方法进行结果合并。

当纳入研究少于10篇，不建议使用漏斗图和回归分析，来判断文章的偏倚和异质性的来源

3. 亚组分析结果的问题

当纳入的研究要根据患者或临床特征进行亚组分析，亚组的分析结果往往会比非亚组分析的结果更加的有意义，更加能解决临床问题。

4. 研究效应值差异问题

当纳入研究提供的效应值相差比较大，或者总体合并的结果和实际临床治疗效果不一致，不需要对结果进行合并，对各研究分别进行描述会更有临床意义。

不同的研究它的类型和患者特征有较大差异，讨论时考虑了研究类型和患者特征，能更好的解释了效应值差异性存在的原因。

5. 研究样本量的问题

如果有少量的研究是大样本的，进行分析时考虑大样本的研究，或和小样本的研究分开来，这样会更加有意义。

比如纳入了相同特征人群的3篇小样本同质的研究和1篇大样本的研究，如果小样本研究的效应值和大样本的一致，可以进行合并分析。如果小样本的效应值和大样本的相差较大，合并效应值可能无法解释真实的临床效果。所以，在这样的情况下，单独对大样本的研究进行详细描述会更加有临床价值。

可以参照以下文章：

Cornell JE, Liao JM, Stack CB, MulrowCD. Annalsunderstanding clinical research: evaluating the meaning of a summary estimatein a meta-analysis. Ann Intern Med. 2017;167:275-7. [PMID:28785763] doi:10.7326/M17-1454

6. 合并方法的选择的问题

选择效应量合并方法时需根据数据特征。当纳入研究数量少，或者研究的效应值有很大差异时，请不要选择DerSimonian-Laird方法（D-L法）进行效应值可信区间估计和P值的计算。这种情况下，请使用更加稳健随机效应估计法，例如似然比法，小样本调整的theSidik-Jonkman 估计法以及分层贝叶斯法。

可以参照以下文章

Cornell JE, Mulrow CM, Localio AR, et al. Random-efectsmeta-analysis of inconsistent effects: a time for change. AnnIntern Med. 2014;160:267-270.

IntHout J, Ioannidis JPA, Borm GF. The Hartung-Knapp-Sidik-Jonkman method for random effects meta-analysisis straightforward and considerably out performs the standard DerSimonian-Lairdmethod. BMD Medical Research Methodology 2014;14:25.

7. 低发生率效应量合并时的问题

当纳入的研究发生率为0或者是非常低时，请不要使用Peto或带有连续较正的MH方法，这些方法会低估了方差，导致合并结果的置信区间过窄。如果其中一个治疗组中的事件为零，使用没有连续性校正的确切Mantel-Haenszel或治疗组连续性校正方法都可以提供合理可靠且准确的估计。

可以参照以下文章：

Bradburn MJ, Deeks JJ, Berlin JA, Localio AR. Much ado aboutnothing: a comparison of the performance of meta-analytical methods with rareevents. Stat Med. 2007;26:53-77. PMID: 16596572

Sweeting MJ, Sutton AJ, Lambert PC. What to add to nothing? Useand avoidance of continuity corrections in meta-analysis of sparse data. StatMed.2004;23:1351-75. PMID: 15116347

8. 统计分析方法描述的问题

根据数据选择统计方法，要明确数据合并，异质性评估和亚组分析的统计模型。

明确统计分析的软件（SAS,Stata,R等），以及软件应用的程序和代码。比如，要使用随机效应方法合并效应值或进行meta回归，要说明特定软件中所使用的分析代码。

研究结果中，二分类的变量或均数描述起来比较容易，但如果建立的模型是非线性的，在方法里就要说明对数据进行对数或反正弦函数的转化。

对于更复杂的分析（例如网络元分析和层次贝叶斯分析），请提供详细的技术附录，其中包括带注释的软件代码，以方便读者理解。

可以参照以下文章：

Localio AR, Goodman SN,Meibohm A, et al. Statistical code tosupport the scientific story. Ann InternMed. 2018. doi:10.7326/M17-3431

9. 研究质量评价的问题

不要用过时的或者太过于简单的方法去评价文章质量，比如Jadad量表

建议用Cochrane偏倚评价工具评价临床试验的质量。

建议用ROBIN-I 或者 the Newcastle-Ottawa 评价观察性研究质量。

建议用QUADAS II评价诊断试验研究的质量。