【原】置信区间在非统计学显著性结果中的应用

风湿中心 2022-06-07 发布于上海

展开全文

许多医学研究的目标是确定在特定情况下，两种或两种以上的治疗方法中哪一种最有效。一项研究的统计学把握度（又称“检验效能”）是指在一定程度上能够检测到真实治疗效果的概率，并且高度依赖于研究的患者数量。当采用回顾性观察研究设计时，研究人员对样本量几乎没有控制，因此也无法控制检测特定治疗效果的能力。

当这类研究产生非统计学显著性结果（本文中称为非显著性结果）时，需要考虑的一个重要的问题是，缺乏统计学显著性是否可能是因为两种方法之间确实没有差异，还是因为把握度不够。为了解决这个问题，有些研究人员可能会考虑对已完成的研究进行把握度计算。然而，一旦研究完成，即使是随机临床试验的把握度计算也无关紧要了。然而，谨慎使用置信区间（confidence interval, CI）有助于解释所有研究设计中的非显著性结果。

2018年发表于《美国医学会杂志·外科学卷》的一篇文章中，加州大学洛杉矶分校大卫·格芬医学院的Hung等研究了，针对持续性或复发性甲状腺乳头状癌患者，再次手术并接受放射性碘（radioactive iodine, RAI）治疗和再次手术但不接受RAI治疗，与肿瘤复发时间之间的关系。

这项回顾性研究纳入了102名患者，两种方法之间没有观察到统计学上的显著差异。作者进行了把握度分析，以确定在类似该研究的样本量中，按照80%的把握度可以检测出的效应值，并最终得出结论，“再次手术并接受RAI与无复发生存期的显著延长无关”，指出“这项研究可能没有足够的把握度来检测出再次手术后接受RAI治疗的效果”。作者报告了相关结果的95% CI，以及肿瘤复发的风险比（hazard ratio, HR）。

置信区间（CI）是什么？

在比较两种治疗方法的统计分析中，统计学显著性阈值设定为0.05或5%，95% CI包含治疗效果的所有值，如果作为零假设提出，则不会使用当前数据拒绝这些值。CI可被视为“相容性区间”，包含与数据最相容的效应值，当将观察的数据与一系列假设效应值进行比较时，可以通过得出不显著的P值来判断。对于任何CI，相应的显著性阈值为100减去置信水平（百分号前的数字）。因此，如果使用10%作为显著性阈值，90% CI给出的值与数据最为一致。

图1 具有统计学非显著性结果的研究中3种可能的置信区间

为什么CI在解释非显著性结果时有用？

与基于结果是否达到统计学显著性的二元解释相比，使用CI可以更丰富地解释治疗组之间没有统计学显著性差异（即阴性结果）的结果。在很多医学研究的结果比较中，有些治疗效果没有临床意义。例如，血压降低或升高3 mmHg即使有统计学显著性，在临床上也没有实际价值。首先，通过确定最小临床重要性差值（minimal clinically important difference, MCID），研究人员可以明确不具有临床意义的数值范围，连续变量通常以0为中心，优势比或风险比则以1为中心。如果在分析开始前根据之前的研究结果进行指定，MCID可以极大地增强CI的解释。

对于预先指定MCID但没有得出显著性结果的研究，具有3种可能性（图1）。在本例中，治疗获益的MCID和治疗有害的MCID在绝对值上相等，但情况并非如此。所有3个CI都包含0；因此，这三种情况都缺乏效应或相关性，该研究将被解释为具有负面或中性结果。然而，由于预先指定了特定MCID，每个区间都有不同的解释。

区间A仅包含介于治疗有害的MCID和治疗获益的MCID之间的值。这一结果可以解释为治疗效果没有临床意义。区间B包括区间A中的值，以及大于治疗获益的MCID的值。这一结果可以解释为治疗效果没有有害性，包括无治疗效果和治疗获益。区间C包括区间B的整个区域，以及大于治疗有害的MCID的值（绝对值）。对这一结果的解释是，治疗效果包括临床无效，以及有意义的治疗获益和危害。在无法预先指定MCID的情况下，仍然可以通过描述CI中值的范围来增强非显著性结果的表现。

CI的局限性

虽然CI可以用来增强对研究结果的解释，但它们也有一些局限性。例如，95% CI不意味着有95%的概率会包含研究结果的真实值（例如，真正的治疗效果）。创建一个包含真实值的指定概率区间，称为概率区间，需要进行贝叶斯分析。此外，95% CI内的值不是唯一可能产生当前数据和模型结果的值；它们只是最相容的值。

Hung等在研究中是如何应用CI来解释结果的？

在进行统计分析时，Hung等写道，“最后，我们进行了把握度分析，以检测再手术并接受RAI治疗患者与再手术但未接受RAI治疗的患者之间再次复发的差异；我们确定有80%的把握度可以检测到22%的再次复发差异。”这一计算似乎是为了确定在一组50名患者和另一组52名患者的样本中，以80%的把握度可以检测到的最小效应值。在调整后的Cox比例风险回归模型中，Hung等发现风险比为1.12，95% CI为0.43至2.98（P=0.81）。根据事后的把握度计算得出结论：“再次手术并接受RAI治疗与无复发生存期的显著延长无关。差异仍有可能小于22%。”

出于上述原因，Hung等对研究数据的另一种表述方式是用CI的解释取代事后把握度计算，例如，“与再次手术但未接受RAI治疗的患者相比，再次手术并接受RAI治疗的患者的肿瘤再次复发风险比在0.43（复发风险较低）到2.98（复发风险较高）之间。”根据之前的研究预先设定MCID值，可以获得更多关于CI范围是否包含具有临床意义的数值。

参考文献：Hawkins AT, Samuels LR. Use of confidence intervals in interpreting nonstatistically significant results[J]. Journal of the American Medical Association,2021,326:2068-2069.