分享

数学思维的妙处(8):用小学数学,把贝叶斯思想给你讲清楚

 木桩指路 2023-01-22 发布于广东

文/老余

由于贝叶斯思想实在太过重要,本篇我们继续。

但请放心,与之前的文章一样,本篇也不会很烧脑,甚至连贝叶斯公式我都不会写出来,我只想用最简单的方式,把它给你讲明白。

先问你一个问题:

假如新冠抗原的准确率为99%,而你测出是阳性,这就说明你99%感染了吗?

这个对不对?

先按下不表。

我们先用贝叶斯眼光看乳腺癌诊断正确率的问题,再反过头来看新冠抗原的。

比如张三体检时,医生告诉她乳腺癌的检查呈阳性,且这种检查的正确率为95%。那张三应不应该相信自己95%的可能性已经患了乳腺癌?

如果不把这个问题搞明白,谁听到这个都会绝望地双腿发软。

下面,我们用贝叶斯(从结果追溯原因,正是贝叶斯出场的时候)推理,把这个问题分析清楚。

文章图片1

(一)张三应该感到绝望吗?

且慢,先不要感到绝望!

这事儿其实没这么简单,因为这个“95%”只是很局部的数据,要把这事儿全部搞明白,起码还要弄清楚以下两点:

1、首先,这种癌症普遍的患病率是多少(贝叶斯里的先验概率)?

说白了,就是首先我们要搞清楚自己处于什么样的宏观概率里,我查了下全球女性乳腺癌的患病率已经到了0.03%。

文章图片2

由此,我们知道在张三没有体检前,她有99.97%的概率处在健康人群里,有0.03%的概率处在患病人群里,除此之外,再也没有其他可能性了(当然,除非她是量子态,是薛定谔的猫)。

文章图片3

宏观概率图(1)

那张三到底处在哪类人群里呢?

这就需要回到微观里看检测结果是否为阳性,且还得看这个检测对患癌人群及非患癌人群的判断准确率是多少?

这就牵扯到第二点。

2、检测的假阴性和假阳性问题

啥是假阴性概率?

就是本来患癌了,但检测结果却显示为阴性误以为没有患癌的概率。上面说了,检测的准确率为95%,也就是100人中,即使有5人患癌,诊断结果却是阴性。

相反,假阳性就是本来没有患癌,但检测结果却是阳性,误以为患癌的概率,我们假设这个概率为1%。

现在,我们把问题的全貌归拢一下:

  1. 全球女性乳腺癌的发病率为0.03%。也就是说,每10000人里会有3人患病,另外9997人不会患病;
  2. 检测的准确率是95%。也就是说,患癌却没有检测出来的概率为5%(一开始,我们只看到了这一点);
  3. 检测假阳性概率为1%,也就是说:每10000人健康女性里,误以为患有乳腺癌的人数是100人;

我们把“2、3”变为更直观的矩阵:

文章图片4

加上了全貌中的“2、3”后,“宏观图1”可变为:

文章图片5

那在全局里,张三检测前可能会出现四种情况,这四种情况及其概率为:

  • (1)左上角-患癌,检测为阳性,概率为:95%×0.03%=0.0285%
  • (2)左下角-患癌,检测却为阴性,概率为:5%×0.03%=0.0015%
  • (3)右上角-未患癌,检测却为阳性,概率为:1%×99.97%=0.9997%
  • (4)右下角-未患癌,检测为阴性,概率为:99%×99.97%=98.9703%

请注意,关键时刻到了,在没有检测前,这四种情况张三必占其一,但现在已知张三是阳性了,所以阴性的可能性就立马排除掉了,也就是说,张三只可能在“(1)、(3)”中占其一了。

那张三确实患了乳腺癌的概率是多少呢?

这就很简单也很好理解了,就是“患癌,检测为阳性”的概率值除以全部为阳性的概率值,即:

——P=患癌,检测为阳性÷(患癌,检测为阳性+未患癌,检测却为阳性)=0.0285%÷(0.0285%+0.9997%)=2.7%(贝叶斯里叫后验概率)。

你看,之前,我们认为张三患乳腺癌的概率是95%,基本上快到了板上钉钉的地步了,但实际情况是:

——即使检测结果为阳性,张三患病的真实概率只有2.7%。

所以不要自己吓自己,即使那个95%很吓人。

接下来,我们再看看新冠的情况,如果抗原测试你羊了,且准确率为99%,那你真实已经感染的可能性是多少呢?

文章图片6

(二)新冠抗原的准确率为99%,而你测了是阳性,这就说明你99%感染了吗?

同理,这事儿的全貌也还包括以下两点:

1、全国,整体的感染率是多少(贝叶斯里的先验概率)?

我查了相对靠谱的说法是60%以上,那我们就按60%来。

文章图片7

在你没有测试之前,其实我有60%的概率处在这个羊了人群里,有40%的概率处在没有感染的人群里。

文章图片8

概率图(1)

那你到底处在哪个人群里呢?

我们回到微观里看假阳性和假阴性。

2、抗原的假阴性和假阳性问题

上面说了,抗原的准确率为99%(也就是说假阴性概率为1%),那假阳性的概率是多少呢?我查了一下,在1%-5%之间,我们就取3%吧。

文章图片9

现在,我们复原这个问题的全貌:

  1. 现在全国新冠感染率为60%;
  2. 抗原试剂的准确率是99%;
  3. 抗原测试的假阳性为3%;
文章图片10

加上了全貌中的“2、3”后,“概率图1”即可变为:

文章图片11

在全局里,抗原测试前有四种情况,这四种情况及其概率为:

  • (1)左上角-未感染测试为阴性,概率为:0.4×0.97=38.8%
  • (2)左下角-未感染测试为阳性,概率为:0.4×0.03=1.2%
  • (3)右上角-已感染测试为阴性,概率为:0.6×0.01=0.6%
  • (4)右下角-已感染测试为阳性,概率为:0.6×0.99=59.4%

现在,已知你阳了,所以阴性的可能性就立马排除掉了,那你确实羊了的概率是多少呢?

P=已感染测试为阳性÷(已感染测试为阳性+未感染测试为阳性)=59.4%÷(59.4%+1.2%)=98%。

——之前我们认为的概率是99%,而真实的概率为98%。

为何新冠与乳腺癌的前后概率相差如此之大,一个几乎是完全颠覆了,而另一个基本没变,这是为何?

我们继续往下看。

文章图片12

(三)总结一下

因为患乳腺癌的风险相对于新冠来说,是非常小的。

所以,对于女性患乳腺癌来说:

健康人群所占比例远远高于患癌比例,这样一来,健康人群被误诊为阳性的数据就不能被忽视。

由此,在整体患病风险较小的疾病里,如果医生给了你一个确诊,也请先不要着急不要悲观,因为这个确诊是误诊的概率非常大,即使这个医生在专业上很牛,但他的概率可能会差点意思。

而对于新冠来说:

感染人群所在比例已经非常高,这样一来,健康人群误诊为阳性的数据就基本可以忽略不计。

由此我们知道,在整体患病风险已经很高的疾病里,如果医生遗憾的说你已经确诊了,这句话的准确性就非常非常高了,即使这是个庸医。

还有一点要引起重视:

虽然张三的患癌概率从误以为的95%一下子降低到了客观的2.7%,但乳腺癌的平均患病概率是0.03%,也就是说,张三在正确率为95%的检查确诊后,她的患病风险就变了,从0.03%飙升到了2.7%。

——增加了90倍。

反过来,当我们看到新闻里说某项疾病的发病率因为长期吃了什么东西翻了10倍时,也不要慌神,我们得冷静下来搞清楚,是在多大的基础概率上翻了10倍。

比如是在亿万分之一的基础上翻的,那翻10倍基本等于没翻,有些人就喜欢制造恐慌。

而数据,是最容易得手的工具,没有之一。

(完)


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多