了解ROC曲线下面积，有这篇文章就够了

藤藤是个爱哭鬼 2017-09-04

展开全文

上一篇文章我们讲了“如何绘制ROC曲线”，今天我们来详解一下ROC曲线下面积。ROC曲线下面积（the area under the ROC curve, AUC）是指ROC曲线与x轴、（1，0）-（1，1）围绕的面积，如图1阴影部分。

一般来说，ROC曲线下面积在0到1之间。如果一项诊断试验的灵敏度是1，而假阳性率是0，那么该诊断试验的ROC曲线下面积就是1。但是这样的诊断试验几乎不存在，一个诊断试验往往不能将所有的患者和非患者都准确地识别出来。同时，也不会出现某一项诊断试验的ROC曲线下面积为0的情况，因为基本不会有一项诊断试验错误地识别了所有的患者和非患者。即使真的有这样的诊断试验，我们只需要将所有的诊断结果反过来，就可以得到完美结果。

也因为如此，我们认为ROC曲线下面积不会低于0.5，如果低了，我们只需将诊断翻转，就能得到更好的结果。如果诊断试验的结果完全随机（等同于诊断时，靠投掷硬币，正面向上认为是患者，反面向上认为是非患者），那么我们得到的ROC曲线下面积就是0.5，即ROC曲线下面积的最小值是0.5。

可见，只要ROC曲线下面积大于0.5，就证明该诊断试验具有一定的诊断价值。同时，ROC曲线下面积越接近1，离（0，1）点越近，证明诊断试验的真实性越好。

第一个栗子

仍以甲状旁腺诊断试验为例，现有SPECT、AC SPECT（衰减矫正SPECT）和SPECT/CT三种方法对同一患者群进行诊断。根据诊断试验结果，研究者将患者甲状旁腺的病变情况分为1-5五个等级。1级为完全没有甲状旁腺病变，2级为可能没有甲状旁腺病变，3级为可能存在甲状旁腺病变，4级为疑似甲状旁腺病变，5级为确诊甲状旁腺病变。得到诊断结果后，我们以3-5级为诊断阳性，1、2级为诊断阴性，并根据手术结果统一评价这三项诊断试验的准确性，如表1。

从表1可以看出，在设置相同截点的情况下，不同诊断试验的真实性不同。其中，SPECT/CT的ROC曲线下面积最接近1，相比于SPECT和AC SPECT具有更好的诊断准确性。

那么，SPECT/CT的ROC曲线下面积（0.83）有什么实际含义吗？

如果我们使用SPECT/CT随机检查2位受试者，其中一位患有甲状旁腺病变，而另一位没有，那么SPECT/CT诊断试验正确区分患者和非患者的可能性为0.83。

同时，如果我们只看ROC曲线，也可以比较不同诊断试验的真实性，如图2。其中，SPECT/CT诊断试验的ROC曲线更接近于（0，1）点，所以它比AC-SPECT诊断试验具有更好的准确性。

图2中两个做标记的点是以3级（可能存在甲状旁腺病变）诊断结果为截点进行坐标的，与表1中的情况一致。这是因为拟合后ROC曲线会略有变化，这两个点均与原坐标点的位置会略有差异。

仅仅从表1中的数据来看，我们可能认为AC SPECT诊断试验的灵敏度（0.80）高于SPECT/CT诊断试验的灵敏度（0.70）。但是从图2我们可以看出，无论是在哪一个假阳性率的位置上，SPECT/CT诊断试验的灵敏度都比AC SPECT诊断试验的灵敏度好。可见，在实际临床工作中，仅以某一个截点的数据评价不同试验的灵敏度是不准确的，我们应根据ROC曲线下面积进行综合判断。

那么，我们一定会选择ROC曲线下面积比较大的诊断试验吗？

答案也是否定的。

通过上一讲对ROC曲线绘制方法的介绍，大家应该知道ROC曲线与受试人群的患病率以及漏诊、误诊的危害程度无关，仅仅是综合评价一项诊断试验的灵敏度和特异度两个指标。

现假设我们想通过诊断试验判断无症状人群的心血管病变情况。在临床实际工作中，这些无症状的就诊人群真实患心血管病变的可能性相对较小。为了减少误诊带来的医疗资源浪费和恐慌，我们可能会更倾向于选择特异度较高的诊断试验和截点。在这种情况下，灵敏度指标对诊断试验的整体准确性的影响较小。我们仅会根据ROC曲线中的一部分（特异度较高的区域），而不是全部的ROC曲线下面积来选择诊断试验。

可见，完全依靠ROC曲线下面积评价诊断试验的准确性是容易产生误导的。即使是ROC曲线下面积相同的两个诊断试验也可能存在不同的临床适用范围。

再来一个栗子

下图3中，我们向大家展示了两条相交的ROC曲线。相比之下，曲线A下的面积（0.85）比曲线B下的面积（0.80）大。仅根据ROC曲线下面积，我们应该以A诊断试验为首选。但是，如果在临床应用中，我们需要一个特异度比较好的诊断试验，B诊断试验应该成为我们的首选。因为在特异度高、假阳性率低的区域，诊断试验B的ROC曲线优于诊断试验A。