【原】非劣效性是个什么鬼？

Memo_Cleon 2020-05-01

展开全文

本文只是为了更好地理解临床试验中的优效性（superiority）、等效性（equivalence）以及非劣效性（non-inferiority），进一步了解可参阅：

（1）CCTS工作小组.非劣效临床试验的统计学考虑.中国药物评价,2012,29(4):262-269.

（2）黄钦,赵明.对临床试验统计学假设检验中非劣效、等效和优效性设计的认识.中国临床药理学杂志,2007,23(1):63-67.

临床研究中，在统计分析时我们最常用的就是差异显著性分析。比如想了解试验药物T与对照药物C的疗效是否相同，我们采用的就是差异性分析的假设检验法。进行检验时一般先假设T和C相等（没有差异），即T-C=0（但由于偶然因素，T-C之差不太可能刚好为0），然后我们在这个假设前提下，计算出由于偶然因素的原因才出现这个差值的概率（P值），最后再根据概率值的大小来决定是否拒绝T=C的假设【注：效应指标如为差值参照比较值是0，如果效应指标采用的是比值，参照值则为1】。

显著性检验是把要分析的两组差值与0作比较，然而在实际的临床当中，有统计学意义未必有实际的专业意义，当考虑到实际临床意义时，我们可能会将两组差值与一个既定的值δ（即界值）比较，就产生了等效性（equivalence）检验、优效性（superiority）检验以及非劣效性（non-inferiority）检验。

优效性试验的目的是为了显示试验药物优于对比药物（阳性或安慰剂对照）的设计。等效性试验是为了评价试验药物和阳性对照药物的疗效是否“相当”，多用于同一活性成分的药物间的比较。非劣效性试验旨在通过与阳性对照的比较，推断试验药物的临床疗效“不差于”已知阳性药物的疗效，从而评价试验药物的优效性和安全性。虽然可能试验药物比阳性对照药物疗效差，但其差值不大，在临床可接受的范围内。如果非劣效性检验成立，试验药物虽然比阳性对照药物在疗效上没有明显优势，但如果有其他方面的优势比如给药方便、价格价格便宜、不良反应少等，那么新药也是值得投入的。还需要说明的是，当我们以阳性药物作为对照时，实际上是默认了阳性对照的疗效是客观存在的而且是稳定的。

上图只为理解，不要形成以下这个错觉：非劣效/等效性界值和优效性界值必须是相等的，非劣效性、等效性、优效检验可以在一次试验设计实施后同时进行。实际绝非如此，任何试验都是设计在先，统计在后，界值的确定也必须是试验设计阶段，不能随意修改，否则就成了非劣效/等效/优效检验就成了数字游戏了。优效性试验中一般不会考虑非劣效界值，事后定制非劣效界值会增加偏倚导致Ⅰ类错误增加，所以优效性试验设计如果没有得出优效性的结论是不可以接着做非劣效检验的。但如果非劣效试验设计得出了非劣效结论，在某些情况是可以进行优效性检验的。

非劣效性、等效性、优效检验与传统的显著性检验最大的不同就是考虑了实际的临床意义，以有实际临床意义的差异δ进行假设检验。理论上，在优效性试验中，界值是指临床上认可的试验组临床疗效优于对照组时两组相差的最小值；而在等效性或非劣效试验中，界值是指临床上可以接受的试验组和对照组临床疗效相等时两组之差的最大值（药效间具有临床意义的最大允许差异值）。实际确认起来较为困难和复杂。注意此处的“临床疗效优于”和“临床疗效相等”指的是基于实际专业意义上的优于和相等，而不是只根据统计学意义。

非劣效性、等效性、优效性试验的统计推断方法也有假设检验方法和置信区间法。

（1）假设检验方法

（2）置信区间法

该法就是构建差值的置信区间，通过置信区间的上下限与界值δ的关系来判定非劣效性、等效性和优效性。判断方法同传统显著性检验中的置信区间法，不同的是显著性检验是将差值与0作比较，依靠置信区间判断时是通过查看置信区间包不包含0来判断，而非劣效性、等效性、优效性检验是将差值与界值δ作比较，是通过查看置信区间包不包含界值来判断。

BMC Med Res Methodol. 2006;6:46-46.

补充说明：显著性检验中的假设检验与置信区间

差异显著性分析的假设检验方法只能推断两总体参数是否不等，利用确切的概率P值判断在统计学上有无统计学意义，要么有要么没有，不能推断差别的大小。在实际的临床当中，有统计学意义未必就有实际的专业意义。如某降压药治疗轻中度的原发性高血压，经治疗后发现其收缩压A比采用对照药物治疗的收缩压B低1mmHg（即A-B=1mmHg），只要两个治疗组的样本量足够，即使差值只有1mmHg，差异性检验的结果也会有统计学意义（P<0.05）,但这样一个1mmHg的差异临床上有多大的实际意义呢？【题外话：以上数据只为理解，实际FEVER研究显示，即使只有4/2mmHg的差异，单从血压上看可能没统计学差异，但主要终点事件如卒中、心血管事件的发生率差别还是很明显的】。根据实践经验或者啥啥标准，我们认为治疗组要比对照组至少降低5mmHg以上，这种差异才有实际的临床意义，这时候我们可以用置信区间进行统计推断。置信区间用于说明量的大小，即推断总体参数的范围。置信区间不仅仅可以回答假设检验的问题，即差别是否与统计学意义，如果置信区间包含了H0，则表示按照α水准尚不能拒绝H0，如果置信区间不含H0，则表示拒绝H0接受H1。另外置信区间还可以提示差别是否有实际的专业意义。