分享

科研助手 | 医学统计学基础概念:P值与可信区间

 勇敢向前探索 2019-01-09


医学统计学基础概念:P值与可信区间

作者/时春虎



在进入正文之前,笔者希望提醒读者以下三个问题。


1

本文目的在于帮助读者区分P值与可信区间的基本概念。因此,尽管笔者在努力追求措辞严谨,文中部分措辞可能仍不符合科技期刊要求,切勿模仿;

2

本文所用数据来自于一个非公开的数据集,数据分享者已声明其数据可以用于以教育为目的的用途,因此笔者在此做简要的责任声明;

3

该数据是数据分享者基于临床研究模拟出的,因此文中的数据分析结果不适用于在科技期刊上发表,否则责任自负。


实例分析

假设我们开展了一项随机对照试验,收集到治疗组(降压药物A)与对照组(降压药物B)合计27,903例社区高血压患者在使用降压药物三个月后的收缩压值,用于比较药物A和B哪个降压效果更好。


由表1可知,两组间的治疗后平均收缩压值相差了9.3 mmHg,图1显示两组间收缩压值分布不完全相同。然而这些结果是描述性的,仅能说明样本数据的一些特征(如数据是怎么分布的),不能告诉我们是不是这两个药物用于该样本对应的总体人群时也会有这样的差异,这时我们常需要用统计推论


图1:收缩压值概率密度分布图


我们通过统计分析得知,两组间收缩压差值为9.3 mmHg (95%可信区间:8.8 – 9.8),Welch两独立样本t检验的t值为36.6,自由度27,832,P值小于2.2*e-16,即几乎为零。


因此,我们可以解释说,患者使用药物A三个月后的收缩压值会比使用药物B平均低9.3 mmHg,这个差值极可能低至8.8 mmHg,高达9.8 mmHg


或许有些人对另一种措辞的表述更熟悉,即患者使用药物A三个月后的平均收缩压值比使用药物B低9.3 mmHg,两组间差异有统计学意义(P值<>


为了帮助理解上述两个论述间的区别,我们需要先简单回顾三个问题。


1

假如我们在我国五个省开展了上述试验,然而我们不可能将该五省的全部高血压人群(假设总体N = 500万)都纳入试验中,去评价药物A和B理论上的疗效差异;


2

但我们希望通过抽取一个样本(n = 27,903)来推断该理论值及其特征,即统计推论。此时,我们需要参照一个已设定的统计模型,通过样本信息去推断统计模型的参数特征(黄大维, 2017);


3

所谓的参数特征是指参数值有多大,与参数相关的统计假设是否正确等。然而,需要注意的是,尽管我们需要通过一个样本的估计值(如血压平均值)来推断参数大小,但估计值总具有一定的不确定性,在同一个总体中抽取不同的样本可能会得到不同的估计值,因此我们不能将样本估计与总体参数之间直接划等号。


对于上述的例子,为了推测500万人群获得的降压效果,我们抽取13,781个研究对象分到药物A组,14,122个研究对象分到药物B组,组间收缩压差值为9.3 mmHg,如果再重复抽样进行该试验的话,平均收缩压差值可能不会再是9.3,但是8.8至9.8 mmHg这个区间极可能(有95%的概率)会包含总体人群的真实血压差因此,可信区间其实是与参数值的大小有关,主要反映样本估计的不确定性


如图2所示,如果我们从上述样本中随机抽取另外三个样本,样本量大小分别为10 (sample1),50 (sample2)和200 (sample3),当样本量增大时,95%可信区间会变小,意思是样本对参数的估计更趋精确。


这里也需要提醒一下,当我们将任一样本的数值做点描述,并和其95%可信区间对比就会发现,每个95%可信区间都不能涵盖相应样本中的95%个数值,因此不能将95%可信区间认为是一个能涵盖95%个样本数值的取值范围 (GraphPad Software, 2018)。


图2:三个样本的样本数值分布和相应的95%可信区间


对于上述的假设检验,我们知道500万人群的收缩压差值(连续型数据)符合标准正态分布,此分布的参数是平均值为零、标准差为一;而抽样情况下的标准正态分布我们会定义为t分布。(统计推论的基本逻辑是我们基于统计描述得到的平均值、SD和样本量等计算出一些数据,如t值和自由度,然后用它们去定义概率分布图,并计算出P值)。


采用Welch t检验的方法得到的t值等于36.6(计算公式略),自由度为27,832(计算公式略),该自由度相应的t分布图见图3。


我们可以将正负36.6绘到图2的X轴上,然后找出正36.6至无穷大以及负36.6至无穷小所对应的两个区域,该两区域的曲线下面积总和几乎等于零,此为P值。

图3:自由度为27,832的t分布图


那P值到底要怎样理解呢?首先,我们先要明确P值中的P意指Probability,即概率。根据美国统计协会2016年的定义,P值是指在一个特定的统计模型下,从样本数据计算出的估计值(如两组间样本均数差)等于观测值或比观测值更为极端的概率(Wasserstein, 2016)。


读到这里,或许读者就会更疑惑这到底是什么意思?让我们用上文案例做进一步解释,上文已经提及。


统计模型:500万人群用药A与B的收缩压差值符合标准正态分布,抽样对应于t分布,平均值的参数值为零;


零假设:药物A与B的收缩压相等,即理论差值(参数)等于零;零假设与统计模型相匹配;


样本:随机抽取27,903个研究对象。


假如理论上,零假设真的成立,我们会希望随机抽取到的样本会很大概率上能反映出真实值,即样本数据能符合在零假设成立时的统计模型。


如若抽取的样本不符合该统计模型,其实可能有两个解释。

1)零假设理论上就根本不成立;

2)零假设理论上成立,但数据给出的信息让我们做出了错误的判断(即一型错误)。


如果我们犯错误的概率极小的话,就可以排除第二个解释,接受第一个解释,即零假设不成立,因此我们就不可能奢望样本数据会符合一个以零假设成立作为条件的统计模型。


简单地说,P值可以帮助判断犯这个错误的概率,用于反映数据是否符合统计模型(P值越小,越不符合)。


现在我们再回到P值的定义。上文已经定义了一个自由度为27,832的t分布(在零假设成立时的统计模型),且上述试验中的样本已经帮助确定了X轴上的两个区域(即正36.6至无穷大以及负36.6至无穷小)。


将来,我们可以再抽取一个新样本,假如让新样本的估计值等于上文样本对应的已观测值,t值即等于正负36.6,而让该估计值比已观测值更极端(即更加偏离中心,偏向无穷)的话,t值即位于正负36.6至无穷大(或小)的范围内。


我们已知t分布描述的是概率密度分布,因此上述两个区域所对应的曲线下面积即为任意一个新样本的“估计值等于观测值或比观测值更为极端的概率”。


从上文可知,该概率(P值)等于零(2.2*e-16),意思是假如我们再取100个样本,不可能有一个样本会比已有样本让我们更有理由拒绝这样一个论述:样本数据符合零假设成立时的统计模型。换言之,已有样本已经足够充分地说明其数据与统计模型不相符。


您可以不必完全理解上文讲解的信息,但希望能记住下面的总结,可信区间用于反映样本对总体真实值的估计有多精确,它本身具有临床意义。


P值用于反映数据与统计模型是否相符。然而,单单知道两者相符与否是不够的,因为它(P值本身)根本无法提供有临床价值的信息,我们往往需要将P值与更多的样本信息一起解读才能给出有临床意义的论述。


这就是为什么常常会有人呼吁,建议优先考虑使用可信区间来解释临床疗效,其中可以结合使用P值,但不能仅依赖P值。


回到该文起初提及的两个论述,它们其实都不严谨,更合理的陈述可以是患者使用药物A三个月后的平均收缩压值会比使用药物B低9.3 mmHg (95%可信区间8.8至9.8),两组间差异有统计显著性(P值<>


参考文献:

黄大维, 2017. P-值已經死了嗎?莫須有罪名的最大受害者!


GraphPad Softward, 2018. GraphPad Statistics Guide - A confidence interval does not quantify variability. Available from Accessed on 09/09/2018.


Wasserstein, R.L., on behalf of the American Statistician Association Board of Directors, 2016. ASA Statement on Statistical Significance and P-Values. The American Statistician, 70(2), 131-133.




作者简介

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多