2019中秋节我们的全国巡讲本来应该是去贵州或者兰州,但无奈报名人数太少,临时调到广州。中秋节专场吸引到了几位中山大学临床统计方向博士研究生,其中一位小伙伴把她以前的统计学技能全部R语言化了,会出一系列笔记。
Analysis plan一堆的数据拿到手了,从哪里开始呢。写Analysis plan是一个很好的选择。 如果是RCT,投稿时杂志有要求提供Analysis plan。 如果是observational的研究,也鼓励提交Analysis plan。 Analysis plan 包括Aim和假设、Study population (纳入和排除标准)、变量(exposure,outcome,考虑要校正的variables和effect modifiers)和statistical analysis。 附上Plos Medicine上一篇文章,附件里边有Analysis plan。(超推荐精读整篇文章!!!读这篇文章感觉在欣赏艺术品。) https://www.ncbi.nlm./pmc/articles/PMC6166926/ Analysis plan是我们进行正式分析前的计划,也指导我们分析数据、报告结果和解释结果。 Data checking在进行分析之前,检查数据非常必要。不然到了分析的时候,发现某个variable的数据有错误,又得从来开始修改。 Outcome有无missing value。 确定变量类型。因outcome的类型决定了我们用什么model,numeric 用linear regression,binary 用logistic regression, time-to-event用Poisson或Cox regression。RCT在杂志里边可以找到很详细的说明,下图分享observational study中常规的方法总结。 配合基础图表,查看outcome的分布。 exposure
numeric exposure检查density plot,histgram,boxplot,scatter plot。是否有极端值、错误值。 categorial exposure用frequency table。
Covariates查看Missing value的数量。 哪些变量要放到multivariate model中进行adjust的。简单写明选择这些变量adjust的原因。 如何选择校正的covariates,在multivariate analysis部分阐述。 data checking的方法与outcome和exposure类似。另也可结合outcome与exposure,查看待选的covariates与outcome和exposure的关系。 Initial analysis初步分析包括Table 1和univariate analysis. 在这之前考虑是否需要data reduction。 Data reduction包括两方面:
与Data checking里边的考虑类似。
我们大致估算样本量的时候有一个简单粗暴常提的原则(虽然有争议),样本量至少是model中变量数量的10倍。这里边的变量数量,若为分组变量,有几个组,算几个变量。 所以,如果一个变量分组太多,比如10个组,那我们考虑下是否需合并,一般4到5组,足够看到10组的risk relationship。 Table 1Table1 的重要性无需多说。入组有没有人为选择、数据缺失情况如何、后期结果能推广(generalize)到哪些人群中,Table 1可见分晓。 推荐一篇教我们规范Table1的文章。 Table 1可以exposure或者outcome分组,列出各个covariates在exposure或outcome中的分布。若是time-to-event的outcome,建议不用outcome分组,另加上中位或平均随访时间和整个的person-time。 下图是来自文中的一个图。描述Table1行列的信息。 Univariate analysis这部分得到crude effect size,在RCT中,是必须要报告的primary results。 一可以得到effect size,二用来与multivariate model进行比较,若校正某个confounder后effect size较crude effect size变化非常大,那就说明这个confounder非常重要了。在讨论的部分可以写上原因。 如果用表展示这部分结果的话,建议与adjusted 的effect size放在一个表格。 若为分类变量的exposure,选择适当的reference group。
Multivariate analysis这部分的重要议题是选择哪些变量校正,model选用与univariate analysis一致。
某个exposure与outcome的association。 构建prediction model 交互作用探究和亚组分析亚组分析看exposure对outcome的作用在各亚组中是否一致。 展示亚组分析结果时,考虑interaction term的P值展示出来。 Sensitivity analysis也就是敏感性分析,从与主分析不同的角度分析,验证主分析结果的稳定性。
参考书籍:2002, Betty R et al. Essential medical statistics. |
|