如何比较两种方法的灵敏度和特异度？来看实例教程！

昵称46059771 2022-02-20

展开全文

在诊断试验或者筛查试验中，一般通过某方法与金标准的比较，计算相应灵敏度、特异度、阳性预测值以及阴性预测值等指标，从而评价这种方法的诊断或筛查价值。

今天聊聊另外一个经常遇到却总是难倒大家的问题——两种诊断方法的灵敏度和特异度比较（这里也是详细回复小伙伴提出的问题~~~）。

临床上，我们会经常遇到这样一种情况，两种检查方法都可以用于诊断疾病，但都不是金标准，于是乎就想比较一下哪种方法更好。举个栗子，200人参加了某项临床研究，分别进行了CT和超声两种检查，计算CT和超声相对于金标准的灵敏度和特异度（详见表1和表2），然后问题就来了，你怎么衡量两种方法的好坏。

有的小伙伴可能要说，直接用配对资料的卡方检验（或Kappa一致性检验）比较一下CT和超声，不就搞定了吗？但是，这里要解决的是CT和超声相对于金标准的好坏，问题并没有解决。有的小伙伴会想，比较两种方法ROC曲线下面积呀。问题是这里并没有涉及到多个诊断切点，也就不会有ROC曲线下面积的概念。办法总比问题多，我们来换个思路解决这个问题——直接比较两种方法的灵敏度和特异度[1]。

由表1和表2可以得到，超声的灵敏度明显高于CT（72%>58%），而特异度却略低于CT（87%<90%）。这么看好像超声要比CT好，但是不要忘了还有抽样误差，还需要进一步的统计学检验。

我们关注的是两种方法灵敏度和特异度的差别，但无论是灵敏度还是特异度，都是在金标准诊断下的病人或者非病人中计算得到的，那么比较超声和CT的灵敏度，就可以在病人当中进行配对卡方检验，特异度同理。数据可以重新整理为表3和表4。通过配对卡方检验，CT和超声的灵敏度和特异度差异均无统计学意义（P>0.05）。

以上是对灵敏度和特异度分开进行统计检验，实际上，也可以对灵敏度和特异度进行整体统计学检验，这里需要将2*2四格表（表3和表4）整理成4*4列联表的形式（表5）。表5中，在金标准下，一个人不可能同时处于得病和不得病两种状态（听起来还挺有哲理~~~），所以“灰色格子”就没有相应数据；蓝色虚线框、红色虚线框分别对应表3（灵敏度比较）和表4（特异度比较）。

表5. 灵敏度和特异度比较