【原】临床统计文章投稿的数据分析策略部分写作介绍

健明 2021-07-14

展开全文

2019中秋节我们的全国巡讲本来应该是去贵州或者兰州，但无奈报名人数太少，临时调到广州。中秋节专场吸引到了几位中山大学临床统计方向博士研究生，其中一位小伙伴把她以前的统计学技能全部R语言化了，会出一系列笔记。

下面是杜云的投稿

近期在写manuscript，因此，总结了下自己所关注到点，主要是 Strategies for analysis，分享与大家，若有错误，欢迎批评指正。

Analysis plan

一堆的数据拿到手了，从哪里开始呢。写Analysis plan是一个很好的选择。

如果是RCT，投稿时杂志有要求提供Analysis plan。

如果是observational的研究，也鼓励提交Analysis plan。

Analysis plan 包括Aim和假设、Study population （纳入和排除标准）、变量（exposure，outcome，考虑要校正的variables和effect modifiers）和statistical analysis。

附上Plos Medicine上一篇文章，附件里边有Analysis plan。（超推荐精读整篇文章！！！读这篇文章感觉在欣赏艺术品。）

https://www.ncbi.nlm./pmc/articles/PMC6166926/

Analysis plan是我们进行正式分析前的计划，也指导我们分析数据、报告结果和解释结果。

Data checking

在进行分析之前，检查数据非常必要。不然到了分析的时候，发现某个variable的数据有错误，又得从来开始修改。

Outcome

有无missing value。

确定变量类型。因outcome的类型决定了我们用什么model，numeric 用linear regression，binary 用logistic regression， time-to-event用Poisson或Cox regression。RCT在杂志里边可以找到很详细的说明，下图分享observational study中常规的方法总结。

配合基础图表，查看outcome的分布。

exposure

有无missing values。
看分布，以简单图表辅助。

numeric exposure检查density plot，histgram，boxplot，scatter plot。是否有极端值、错误值。

categorial exposure用frequency table。

看是否需要recode，numeric exposure可能需要根据临床应用意义，进行分组，比如BMI原是numeric variable，但进行categorization更易解释结果的临床意义。另外，在进行交互作用探索中，也容易进行。recode写明原因。
与outcome结合，做contingency tables，boxplot等，也可大致看下exposure对outcome的effect的大小和方向。

Covariates

查看Missing value的数量。

哪些变量要放到multivariate model中进行adjust的。简单写明选择这些变量adjust的原因。

如何选择校正的covariates，在multivariate analysis部分阐述。

data checking的方法与outcome和exposure类似。另也可结合outcome与exposure，查看待选的covariates与outcome和exposure的关系。

Initial analysis

初步分析包括Table 1和univariate analysis.

在这之前考虑是否需要data reduction。

Data reduction

包括两方面：

是否需categorize数值型变量

与Data checking里边的考虑类似。

是否需合并分类变量。

我们大致估算样本量的时候有一个简单粗暴常提的原则（虽然有争议），样本量至少是model中变量数量的10倍。这里边的变量数量，若为分组变量，有几个组，算几个变量。

所以，如果一个变量分组太多，比如10个组，那我们考虑下是否需合并，一般4到5组，足够看到10组的risk relationship。

Table 1

Table1 的重要性无需多说。入组有没有人为选择、数据缺失情况如何、后期结果能推广（generalize）到哪些人群中，Table 1可见分晓。

推荐一篇教我们规范Table1的文章。

Table 1可以exposure或者outcome分组，列出各个covariates在exposure或outcome中的分布。若是time-to-event的outcome，建议不用outcome分组，另加上中位或平均随访时间和整个的person-time。

下图是来自文中的一个图。描述Table1行列的信息。

Univariate analysis

这部分得到crude effect size，在RCT中，是必须要报告的primary results。

一可以得到effect size，二用来与multivariate model进行比较，若校正某个confounder后effect size较crude effect size变化非常大，那就说明这个confounder非常重要了。在讨论的部分可以写上原因。

如果用表展示这部分结果的话，建议与adjusted 的effect size放在一个表格。

若为分类变量的exposure，选择适当的reference group。

选择unexposed 为reference。
根据临床情况，比如BMI，normal是我们的常规标准，那么normal组就为reference；
根据临床情况，outcome里，感兴趣关注的结局是什么，那么就用更可能出现这个感兴趣的结局的exposure的那个组为不要做reference。比如，比较某个药的副作用，关注的结局是出现了副作用，那么reference为没吃药的组。
另外从统计学考虑，尽量不选择例数太少的组当作reference，因为estimate 的standard error会非常大，那么我们得到的95% CI就非常宽。

Multivariate analysis

这部分的重要议题是选择哪些变量校正，model选用与univariate analysis一致。

最重要的是，knowledge matters。哪些最可能是confounders，查看历史文献或各种疾病的指南。
结合研究目的。

先列出已知的confounders和outcome的variables。然后可以用stepwise selection的方法选择。stepwise selection参考下图。当然下图只是展示大致思路，selection的版本很多，大家可调整。

已知的confounders尽量加进去，增加causal relationship的推断。

某个exposure与outcome的association。

构建prediction model

考虑共线性，若两个变量高度相关，可考虑只选择其中一个。
考虑多个变量hierarchical的关系。参考这篇文献。举个例子，如果有两个变量AB，与outcome的关是：A:arrow_forward:B:arrow_forward:outcome。如果若感兴趣的是B的作用，可校正A。若感兴趣的是A，不可校正B，因B是mediator。
如果是multiple linear regression，与outcome相关的variables都加进去，不管它是否是confounders。因为这样可以减小residual sum of squares，增加estimate的准确性，95%CI会变窄。

交互作用探究和亚组分析

亚组分析看exposure对outcome的作用在各亚组中是否一致。

展示亚组分析结果时，考虑interaction term的P值展示出来。

Sensitivity analysis

也就是敏感性分析，从与主分析不同的角度分析，验证主分析结果的稳定性。

首要考虑missing values是否影响结果的稳定性。比如，用NEJM上的一篇文章举例，主分析将有缺失值的subjects归为一组。在敏感性分析中，采用multiple imputation的方法填入缺失值，得到填入缺失值后的5个datasets，然后再分析，得出结果。与主分析结果一致，那么更加说明主分析结果的可信度。
另可以考虑用不同数量的样本量做敏感性分析。
加入或减少某个covariate做敏感性分析。

参考书籍：2002, Betty R et al. Essential medical statistics.