分享

临床统计文章投稿的数据分析策略部分写作介绍

 健明 2021-07-14

2019中秋节我们的全国巡讲本来应该是去贵州或者兰州,但无奈报名人数太少,临时调到广州。中秋节专场吸引到了几位中山大学临床统计方向博士研究生,其中一位小伙伴把她以前的统计学技能全部R语言化了,会出一系列笔记。

下面是杜云的投稿

近期在写manuscript,因此,总结了下自己所关注到点,主要是 Strategies for analysis,分享与大家,若有错误,欢迎批评指正。

Analysis plan

一堆的数据拿到手了,从哪里开始呢。写Analysis plan是一个很好的选择。

如果是RCT,投稿时杂志有要求提供Analysis plan。

如果是observational的研究,也鼓励提交Analysis plan。

Analysis plan 包括Aim和假设、Study population (纳入和排除标准)、变量(exposure,outcome,考虑要校正的variables和effect modifiers)和statistical analysis。

附上Plos Medicine上一篇文章,附件里边有Analysis plan。(超推荐精读整篇文章!!!读这篇文章感觉在欣赏艺术品。)

https://www.ncbi.nlm./pmc/articles/PMC6166926/

Analysis plan是我们进行正式分析前的计划,也指导我们分析数据、报告结果和解释结果。

Data checking

在进行分析之前,检查数据非常必要。不然到了分析的时候,发现某个variable的数据有错误,又得从来开始修改。

Outcome

有无missing value。

确定变量类型。因outcome的类型决定了我们用什么model,numeric 用linear regression,binary 用logistic regression, time-to-event用Poisson或Cox regression。RCT在杂志里边可以找到很详细的说明,下图分享observational study中常规的方法总结。

配合基础图表,查看outcome的分布。

exposure

  • 有无missing values。

  • 看分布,以简单图表辅助。

numeric exposure检查density plot,histgram,boxplot,scatter plot。是否有极端值、错误值。

categorial exposure用frequency table。

  • 看是否需要recode,numeric exposure可能需要根据临床应用意义,进行分组,比如BMI原是numeric variable,但进行categorization更易解释结果的临床意义。另外,在进行交互作用探索中,也容易进行。recode写明原因。
  • 与outcome结合,做contingency tables,boxplot等,也可大致看下exposure对outcome的effect的大小和方向。

Covariates

查看Missing value的数量。

哪些变量要放到multivariate model中进行adjust的。简单写明选择这些变量adjust的原因。

如何选择校正的covariates,在multivariate analysis部分阐述。

data checking的方法与outcome和exposure类似。另也可结合outcome与exposure,查看待选的covariates与outcome和exposure的关系。

Initial analysis

初步分析包括Table 1和univariate analysis.

在这之前考虑是否需要data reduction。

Data reduction

包括两方面:

  • 是否需categorize数值型变量

与Data checking里边的考虑类似。

  • 是否需合并分类变量。

我们大致估算样本量的时候有一个简单粗暴常提的原则(虽然有争议),样本量至少是model中变量数量的10倍。这里边的变量数量,若为分组变量,有几个组,算几个变量

所以,如果一个变量分组太多,比如10个组,那我们考虑下是否需合并,一般4到5组,足够看到10组的risk relationship。

Table 1

Table1 的重要性无需多说。入组有没有人为选择、数据缺失情况如何、后期结果能推广(generalize)到哪些人群中,Table 1可见分晓。

推荐一篇教我们规范Table1的文章。

Table 1可以exposure或者outcome分组,列出各个covariates在exposure或outcome中的分布。若是time-to-event的outcome,建议不用outcome分组,另加上中位或平均随访时间和整个的person-time。

下图是来自文中的一个图。描述Table1行列的信息。

Univariate analysis

这部分得到crude effect size,在RCT中,是必须要报告的primary results。

一可以得到effect size,二用来与multivariate model进行比较,若校正某个confounder后effect size较crude effect size变化非常大,那就说明这个confounder非常重要了。在讨论的部分可以写上原因。

如果用表展示这部分结果的话,建议与adjusted 的effect size放在一个表格。

若为分类变量的exposure,选择适当的reference group。

  • 选择unexposed 为reference。
  • 根据临床情况,比如BMI,normal是我们的常规标准,那么normal组就为reference;
  • 根据临床情况,outcome里,感兴趣关注的结局是什么,那么就用更可能出现这个感兴趣的结局的exposure的那个组为不要做reference。比如,比较某个药的副作用,关注的结局是出现了副作用,那么reference为没吃药的组。
  • 另外从统计学考虑,尽量不选择例数太少的组当作reference,因为estimate 的standard error会非常大,那么我们得到的95% CI就非常宽。

Multivariate analysis

这部分的重要议题是选择哪些变量校正,model选用与univariate analysis一致。

  • 最重要的是,knowledge matters。哪些最可能是confounders,查看历史文献或各种疾病的指南。

  • 结合研究目的。

  • 先列出已知的confounders和outcome的variables。然后可以用stepwise selection的方法选择。stepwise selection参考下图。当然下图只是展示大致思路,selection的版本很多,大家可调整。
    已知的confounders尽量加进去,增加causal relationship的推断。

    某个exposure与outcome的association。

    构建prediction model

  • 考虑共线性,若两个变量高度相关,可考虑只选择其中一个。

  • 考虑多个变量hierarchical的关系。参考这篇文献。举个例子,如果有两个变量AB,与outcome的关是:A:arrow_forward:B:arrow_forward:outcome。如果若感兴趣的是B的作用,可校正A。若感兴趣的是A,不可校正B,因B是mediator。

  • 如果是multiple linear regression,与outcome相关的variables都加进去,不管它是否是confounders。因为这样可以减小residual sum of squares,增加estimate的准确性,95%CI会变窄。

交互作用探究和亚组分析

亚组分析看exposure对outcome的作用在各亚组中是否一致。

展示亚组分析结果时,考虑interaction term的P值展示出来。

Sensitivity analysis

也就是敏感性分析,从与主分析不同的角度分析,验证主分析结果的稳定性。

  • 首要考虑missing values是否影响结果的稳定性。比如,用NEJM上的一篇文章举例,主分析将有缺失值的subjects归为一组。在敏感性分析中,采用multiple imputation的方法填入缺失值,得到填入缺失值后的5个datasets,然后再分析,得出结果。与主分析结果一致,那么更加说明主分析结果的可信度。
  • 另可以考虑用不同数量的样本量做敏感性分析。
  • 加入或减少某个covariate做敏感性分析。

参考书籍:2002, Betty R et al. Essential medical statistics.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多