分享

画说统计 | 阳性检出率提高就是诊断好方法啦?没有灵敏度,特异度可是不行哒

 生物_医药_科研 2018-12-29

   诊断能力,牛人大夫的必杀技之一,因此在临床研究中,诊断能力评价也就成了了经久不衰的主题。

 

怎么验证诊断能力呢?

 

   由于差别性检验拥有最广泛的拥趸,很多时候最“天然”的想法可能是:

找到一组确诊的病人和确定排除的非病患。


给他们都做诊断试验:


然后呢,比比两组的阳性率,如果阳性率不同,差异用统计学意义,那不就是能诊断了么

 

   类似的思路还出现在:想对两个诊断方法的能力做出比较的时候:会找一组确诊好的患者:


   给他们分别作两种诊断试验,


   然后比较下阳性检出率,差异有统计学意义时,那么,阳性检出率高的那个,一定就是好方法啦。

 

   于是,以上错误就成了诊断能力评价最常见的错误,为什么这么干“不太合适”呢?

 

   首先来看第一种情况,患者与非患者的阳性检出比例不同,这就可以用来诊断了吗?仿佛还差那么一点点吧。

   首先诊断的根本在于区分患者与非患者,所以从这个角度看,试验诊断方法在两组间获得有差异的结果这当然是验证的重要一步(想想看,如果两组连阳性率都差不多,那当然就肯定没法区分谁是患者谁是正常人了)。不过针对组率的差别性检验的目标在于通过样本推断总体特征,它的直接验证目标是两组的阳性率。

 

   而诊断评价则不再仅仅把关注力放在群体的层面。因为诊断所针对的是每一个个体,所以迫切的需要知道在新建立的诊断方法下,我们诊断对了多少,同时又误诊了多少,而且这个误诊的比例是不是已经足够低了,临床医生们已经可以“容忍和接受”了呢?


   这就不是组间阳性率是否相同能够回答的问题了。


   再者,大家都知道,p值的大小受到样本量的影响,同样的差异在样本量不同的时候p值会随着样本量的增大而减小,


   所以看差别性检验的p值就建立诊断方法,是不是很危险

 

   在两种方法的比较中,同样采用差别性检验,同样带来了验证上的问题。

在针对两种诊断方法阳性病例检出情况的比较中,当我们发现一种方法的阳性检出率更高的时候,很容易留下这个诊断方法更佳的印象。 

   但实际上,在这个时候,我们还不清楚,这种较高的阳性检出率是用多少非病患的误诊为代价换来的。

 


 

   所以诊断能力评价的核心包括了两个方面:找出病患;同时排除非病患。这两方面的能力的验证缺一不可。

 

   于是,就有了诊断能力评价的方法学体系,其中最根本,也是最重要的统计学指标是:灵敏度特异度

   他们分别代表了把病人发现出来的能力和把没病的人排除出去的能力。

 

   他们是怎么算出来的呢,过程是这样的:

    首先,需要根据临床诊断的实际情况,入选一批需要甄别其疾病状态的病例作为研究样本。


   并采用目前公认的金标准诊断方法对他们一一完成诊断,从而区分病患与非病患。


   然后再用试验方法同样对他们逐一完成检查,得出阳性或阴性的试验结果。




   这样一来,结合金标准与试验诊断这两种诊断方式,所有的研究对象被分作四种类型,可以放在这样的四格表里。这样试验方法的诊断能力就直观的显示出来了。

 


  如图所示:

          a方格:被试验方法判断为阳性的患者(这很好);

          b方格:被试验方法判断为阳性的非患者阴性的患者(搞错了);

          c方格:被试验方法判断为阴性的患者(搞错了)

          d方格:试验方法判断为阴性的非患者(这很好)

 

   我们的期待:站ad方格中的受试比例越高越好(全在那里最好了,那我就是传说中的金标准),而bc格子里的人越少越好

 

   如何准确表达试验方法与金标准诊断的接近程度呢?总不能让广大读者“目测”或者“点数”你的诊断能力吧。这就该灵敏度和特异度隆重登场了:

 

灵敏度(sensitivity,Se)是所有患者中被试验方法诊断为阳性的比例


特异度(specificity,Sp)是所有非患者中被试验方法诊断为阴性的比例


  不难看出,灵敏度和特异度的取值都在0-1之间而且越接近1越好 


  对于一个诊断能力评价过程,灵敏度和特异度是最根本的评价指标,因为他们分别反应了检出病患和排除无病这两个根本能力,也就说明了鉴别患者与非患者的诊断能力。因此在评价中二者缺一不可。一旦偏废则可能遗漏重要信息,造成诊断能力误判。


   综上,诊断能力评价是一个综合的过程,而且最终的决断需要依据临床实际意义制定相应的判定准则。灵敏度,特异度是诊断能力评价最根本的指标。

    当然,为了充分表达诊断能力,我们会用到的指标远远不止如上几个,我们会结合实例陆续呈现。

   同时,还需要指出的是,构建诊断能力研究需要从临床的实际应用出发,确定符合临床应用实际的研究病例纳入标准。否则,研究对象的特征与临床应用时的病例特征和范畴不一致时,很可能无法获得准确的诊断能力评价,特别是:可能造成对诊断能力造成高估。


   可是,......如果所采用的诊断指标是一个连续的测量值,高高低低的,就像实验室检查经常呈现给我们的那样,我们拿着这个试验诊断结果没有办法一下子获得阳性或阴性的判断,当然也就没办法直接计算灵敏度,特异度啦。那我们有该怎样评价诊断能力呢?这时候,你需要ROC曲线帮帮忙

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多