|
文/老余 由于贝叶斯思想实在太过重要,本篇我们继续。 但请放心,与之前的文章一样,本篇也不会很烧脑,甚至连贝叶斯公式我都不会写出来,我只想用最简单的方式,把它给你讲明白。 先问你一个问题: 假如新冠抗原的准确率为99%,而你测出是阳性,这就说明你99%感染了吗? 这个对不对? 先按下不表。 我们先用贝叶斯眼光看乳腺癌诊断正确率的问题,再反过头来看新冠抗原的。 比如张三体检时,医生告诉她乳腺癌的检查呈阳性,且这种检查的正确率为95%。那张三应不应该相信自己95%的可能性已经患了乳腺癌? 如果不把这个问题搞明白,谁听到这个都会绝望地双腿发软。 下面,我们用贝叶斯(从结果追溯原因,正是贝叶斯出场的时候)推理,把这个问题分析清楚。 ![]() (一)张三应该感到绝望吗?且慢,先不要感到绝望! 这事儿其实没这么简单,因为这个“95%”只是很局部的数据,要把这事儿全部搞明白,起码还要弄清楚以下两点: 1、首先,这种癌症普遍的患病率是多少(贝叶斯里的先验概率)? 说白了,就是首先我们要搞清楚自己处于什么样的宏观概率里,我查了下全球女性乳腺癌的患病率已经到了0.03%。 ![]() 由此,我们知道在张三没有体检前,她有99.97%的概率处在健康人群里,有0.03%的概率处在患病人群里,除此之外,再也没有其他可能性了(当然,除非她是量子态,是薛定谔的猫)。 ![]() 宏观概率图(1) 那张三到底处在哪类人群里呢? 这就需要回到微观里看检测结果是否为阳性,且还得看这个检测对患癌人群及非患癌人群的判断准确率是多少? 这就牵扯到第二点。 2、检测的假阴性和假阳性问题 啥是假阴性概率? 就是本来患癌了,但检测结果却显示为阴性误以为没有患癌的概率。上面说了,检测的准确率为95%,也就是100人中,即使有5人患癌,诊断结果却是阴性。 相反,假阳性就是本来没有患癌,但检测结果却是阳性,误以为患癌的概率,我们假设这个概率为1%。 现在,我们把问题的全貌归拢一下:
我们把“2、3”变为更直观的矩阵: ![]() 加上了全貌中的“2、3”后,“宏观图1”可变为: ![]() 那在全局里,张三检测前可能会出现四种情况,这四种情况及其概率为:
请注意,关键时刻到了,在没有检测前,这四种情况张三必占其一,但现在已知张三是阳性了,所以阴性的可能性就立马排除掉了,也就是说,张三只可能在“(1)、(3)”中占其一了。 那张三确实患了乳腺癌的概率是多少呢? 这就很简单也很好理解了,就是“患癌,检测为阳性”的概率值除以全部为阳性的概率值,即: ——P=患癌,检测为阳性÷(患癌,检测为阳性+未患癌,检测却为阳性)=0.0285%÷(0.0285%+0.9997%)=2.7%(贝叶斯里叫后验概率)。 你看,之前,我们认为张三患乳腺癌的概率是95%,基本上快到了板上钉钉的地步了,但实际情况是: ——即使检测结果为阳性,张三患病的真实概率只有2.7%。 所以不要自己吓自己,即使那个95%很吓人。 接下来,我们再看看新冠的情况,如果抗原测试你羊了,且准确率为99%,那你真实已经感染的可能性是多少呢? ![]() (二)新冠抗原的准确率为99%,而你测了是阳性,这就说明你99%感染了吗?同理,这事儿的全貌也还包括以下两点: 1、全国,整体的感染率是多少(贝叶斯里的先验概率)? 我查了相对靠谱的说法是60%以上,那我们就按60%来。 ![]() 在你没有测试之前,其实我有60%的概率处在这个羊了人群里,有40%的概率处在没有感染的人群里。 ![]() 概率图(1) 那你到底处在哪个人群里呢? 我们回到微观里看假阳性和假阴性。 2、抗原的假阴性和假阳性问题 上面说了,抗原的准确率为99%(也就是说假阴性概率为1%),那假阳性的概率是多少呢?我查了一下,在1%-5%之间,我们就取3%吧。 ![]() 现在,我们复原这个问题的全貌:
![]() 加上了全貌中的“2、3”后,“概率图1”即可变为: ![]() 在全局里,抗原测试前有四种情况,这四种情况及其概率为:
现在,已知你阳了,所以阴性的可能性就立马排除掉了,那你确实羊了的概率是多少呢? P=已感染测试为阳性÷(已感染测试为阳性+未感染测试为阳性)=59.4%÷(59.4%+1.2%)=98%。 ——之前我们认为的概率是99%,而真实的概率为98%。 为何新冠与乳腺癌的前后概率相差如此之大,一个几乎是完全颠覆了,而另一个基本没变,这是为何? 我们继续往下看。 ![]() (三)总结一下因为患乳腺癌的风险相对于新冠来说,是非常小的。 所以,对于女性患乳腺癌来说: 健康人群所占比例远远高于患癌比例,这样一来,健康人群被误诊为阳性的数据就不能被忽视。 由此,在整体患病风险较小的疾病里,如果医生给了你一个确诊,也请先不要着急不要悲观,因为这个确诊是误诊的概率非常大,即使这个医生在专业上很牛,但他的概率可能会差点意思。 而对于新冠来说: 感染人群所在比例已经非常高,这样一来,健康人群误诊为阳性的数据就基本可以忽略不计。 由此我们知道,在整体患病风险已经很高的疾病里,如果医生遗憾的说你已经确诊了,这句话的准确性就非常非常高了,即使这是个庸医。 还有一点要引起重视: 虽然张三的患癌概率从误以为的95%一下子降低到了客观的2.7%,但乳腺癌的平均患病概率是0.03%,也就是说,张三在正确率为95%的检查确诊后,她的患病风险就变了,从0.03%飙升到了2.7%。 ——增加了90倍。 反过来,当我们看到新闻里说某项疾病的发病率因为长期吃了什么东西翻了10倍时,也不要慌神,我们得冷静下来搞清楚,是在多大的基础概率上翻了10倍。 比如是在亿万分之一的基础上翻的,那翻10倍基本等于没翻,有些人就喜欢制造恐慌。 而数据,是最容易得手的工具,没有之一。 (完) |
|
|