分享

福尔摩斯与似然比

 真空真空 2021-03-15
图片

(图片来源于网络)


《巴斯克维尔的猎犬》第四章里,有一封神秘来信,是用报纸上剪下来的字拼凑的,并用胶水粘上,写着:“如果你珍爱生命或足够理智,请远离沼地。”就在巴斯克维尔爵士的团队试图弄清楚发生了什么事的时候,福尔摩斯拿起一张报纸,开始读财经版上的字,并说信上这些字是从头版上剪下来的。

然后福尔摩斯仔细查看信封上手写的地址,声称几乎可以肯定这个地址是在一家旅馆里写的。巴斯克维尔爵士的团队的Dr. Mortimer抗议道:“您只是猜测吧!怎么能这样肯定呢?”福尔摩斯回答:平衡各种可能性后得出的结论”

福尔摩斯解释:“如果你仔细观察,你会发现钢笔和墨水都给写信的人带来点麻烦。笔在同一个单词迸溅出了两次墨迹;在一句简短的地址中,从书写的笔划里看出墨水写干了三次。说明了两件事:1、笔的状况很差;2、墨水瓶里的墨水很少。

福尔摩斯继续解释,私人的笔或墨水瓶很少处于这种状态,而两者结合起来更为罕见,但是旅馆的钢笔和墨水瓶,出现这种情况的概率大得多。

紧接着,福尔摩斯雇佣一个小童去查林十字路附近的旅馆,找废纸篓是否有剩下的剪报。

结局证实了福尔摩斯推论是正确的。

这里引出这篇文章的主题:似然比(Likelihood ratio,LR)。

01.
似然比是什么?


Q1

在观察数据之前,我们相信的是什么?


图片
我们将浅蓝色的矩形,标记为“A”(假设)。深蓝色的矩形标记为“B”(备选假设)。在这两个假设之间,我们假定涵盖了所有的可能性,并且没有重叠。
图片
A的可能性是P(A)=A/(A+B)
B的可能性是P(B)=B/(A+B)

这两种可能性的比值是:
Odds(A)=P(A)/P(B)=A/B。

在有观察数据前,A/B这个比值,又叫作“先验比值”(pre-odds)。“先验比值”就是在收集到新数据,或重新计算之前,基于经验或此前的数据得到的比率。
图片
例如
一名25岁的孕妇,在走进你的诊室之前,她的唐氏风险约等于1:1000(A/B),这个概率通过大量人群数据得出,因此对于该孕妇,我们可把1:1000作为pre-odds。

Q2

在观察数据之后,我们要相信什么?


图片
一旦我们有了新的某项观察数据(Data),记作随机事件“D”,我们的观察范围会缩小。绿色矩形是新的观察数据,在A和B的区域内都能观察到,分别记作a和b。

即你观察的范围缩小到(a+b)
图片
所以此时随机事件D在假设A区域内发生的可能性为:
图片
P(a|D)=a/(a+b)
P(b|D)=b/(a+b)

同理,后验比值(post-odds)=a/b
图片

对比先验比值和后验比值的大小,显然,Post-odds与pre-odds结果不同。这种这种比值的变化就是似然比

换言之,似然比是先验比值和后验比值的变化程度。

图片
并且,经过稍变形公式,a/A就是诊断试验四格表中的真阳性,b/B是假阳性,如此一来,你也许就能明白为何不少统计学书上提到LR是真阳性和假阳性的比值。而放在临床应用时,它具体含义是观察到的新的证据时对于原先概率的影响程度。

举例
假设A为21三体,B是整倍体。

一个25岁孕妇,孕20周,在没有观察数据之前,21三体风险大约为1/1000, 1/1000即先验比值(A/B)。

如果观察后的数据是“胎儿鼻骨缺如”,根据数据中孕期21三体胎儿中约70%胎儿鼻骨缺失(即a/A),在整倍体中约2.8%胎儿鼻骨缺失(即b/B)。

由此可知,在没有其他数据的时候,“胎儿鼻骨缺如”对于21三体的似然比为70%/2.8%=25。由此可以推测,该孕妇的胎儿21三体的风险为1/1000×5=1/40。

02.
福尔摩斯如何利用似然比进行推测


让我们回到我们故事的文本上来。

故事背景中“笔尖在一个单词里迸出了2次墨迹”、“在一个简短的地址里墨水写干了3次”是两个观察到的事件。

侦探说“私人的钢笔或墨水瓶很少处于这种状态”,这就形成了我们的另一种假设:这封信是在旅馆里写的,在那里很难找到其他书写工具。

假设这封信是“在旅馆里写的”;备选假设是“在私人的地方撰写的”。

数据是“笔迸溅了”,这一事件发生了2次;“墨水干了”,这一事件发生了3次。

现在我们来看看福尔摩斯福尔摩斯所说的可能性有多大? 以及他如何使用这些信息。

他说,旅馆里很难找到其他书写工具,旅馆的笔迸溅这一比例可能高达90%,但由于一些法医科学家喜欢“保守”,所以我们使用较小的值50%。

假设这支笔是私人笔(即不是在旅馆里写的),那么这支笔的溅射数据的概率是多少? 假设“很少”的概率是10%。

那么笔迸溅的似然比为50%/10%=5。
图片
如果我们使用更高的90%/10%。那么我们得到的似然比是9,如果使用更保守的40%,得到的似然比是4。在这个可能性范围内,我们将计算4、5、或9左右的比率,不管我们输入什么特定的值。我们得到关于钢笔迸溅这一随机事件的可能性概率。

墨水干了的数据呢?由于墨水干了而导致字体有3个损坏的地方。假设是在旅馆里写的,发生墨水干了的概率有50%,而私人墨水干了的概率是10%左右。因此墨水干的似然比也是5。

图片

现在我们有了两种数据事件的可能性比——笔迸溅和墨水干。

笔溅水2次,墨水干3次,侦探将独立事件相乘形成联合似然比,于是我们看到支持旅馆假设的可能性比是所有证据的组合:
图片
即使我们使用更保守的似然比,比如4,那么联合值也超过1000(4×4×4×4×4=1024)。

无论如何,福尔摩斯用似然比推测这封信是写在当地一家旅店的可能性远远高于私人地址。根据这个足够大的似然,他采取下一步行动,雇了一个男孩去查林十字路附近的旅馆寻找废纸篓里有没有剪报。

此处需要说明,福尔摩斯的故事并非计算似然比的范例,仅仅是帮助我们理解如何把条件概率用于对事情的把握上。

03.
母胎医学中的似然比的应用


现实世界中,条件概率应用广泛。

例如手机的面部识别功能,当手机扫描我们的面部,打比方识别并记住了50个生物特征,下一次扫描的时候,假如有43个特征都符合,它会认为似然比足够高,应该是同一个人,自动开锁;如果只有8个特征符合,它认为是主人的概率太低,不启动开锁。

图片

基于模式识别的人脸识别技术(图片来源于网络)


因此我们总是争取得到完备的信息储量,以提高判断的准确率,本质上,这是基于条件概率的贝叶斯推算

刘子建教授在第一期《打开胎儿医学的大门---胎儿超声软指标》公开课讲到2013年Kypros Nicolaides教授团队对多个文献进行meta分析,对21三体的胎儿超声软指标进行似然比的分析计算。

刘教授提到一个问题,在医学诊疗实践中,我们观察的证据不止一个,而不同的证据之间可能存在相关关系,需要通过相应的统计学方法得到独立的似然比,才更趋近于真实。

图片
(Ultrasound Obstet Gynecol.2013 Mar;41(3):247-61)
上面图表所示,如果不考虑不同软指标之间存在的相关关系,每个软指标的21三体似然比都很高,例如鼻骨发育不良、侧脑室增宽、颈部皮肤增厚(NF)和迷走右锁骨下动脉(ARSA)等,均大于20,但独立后的似然比,鼻骨发育不良约6.58,其余均不高于4。

有医生问:是否存在公认的胎儿软标记物的似然比,大家能用同一个标准在产前筛查和咨询中应用?

实际上,LR由观察样本数据得到。对同一疾病,研究方法不同,有前瞻性,有回顾性;采样的人群不同,有普通筛查人群,有专科高危妊娠人群;样本空间(即随机事件的子集)不同,即纳入软指标的种类不同;定义不同,例如鼻骨短的定义有“短于2.5mm、短于5mm、完全显示不清”, 肾盂轻度增宽的定义有大于3mm,4mm和5mm;观察者之间的主观性差异,如颈部皮肤厚度的测量和肠管回声增强……

上述种种,都会显著影响似然比的分配偏差。

所以,有公认的似然比吗?答案是没有

但是,似然比有用吗?当然有。随着证据足够强,我们对结果可靠性更有把握。既往我们认为可能显著增加21三体概率的软标记物,如心内强回声光斑、轻度肾盂增宽、股骨短及肱骨短等,现在认为,这些标记物孤立出现并不增加21三体的风险,因为它们的似然比都在1左右。

鼻骨发育不良有较高的似然比,在5-10之间,但是当先验比值足够低,例如,孕妇的NIPT为低风险,可以认为先验比值为1:100000~1:50000,当出现孤立性的鼻骨缺如时,即使使用最大的似然比10,唐氏风险1/50000×10=1/5000,仍为低风险。

但如果一个34岁的孕妇,中孕唐氏筛查风险1:500,中孕超声发现鼻骨发育不良,在仔细观察胎儿无其他结构异常后,你重新计算风险,唐氏风险为1:100~1:50,从生育的角度来说,这是高风险,此时我们需要为她提供对冲这个风险的方法。

假设胎儿其他结构正常,作为对冲21三体风险的方法,NIPT应该是足够的,当然大部分医生不会这么做,考虑几个方面:1、NIPT仍然是筛查;2、NIPT阳性仍需要穿刺;3、考虑到信息的完备性,超声可能会漏其他标记物或结构异常;4、羊水提供的染色体微阵列可以诊断其他致病性CNV。

基于上述考虑,你会强烈建议孕妇做羊水穿刺,但是如果孕妇仍然坚持做NIPT而不愿意穿刺,此时不要脸色下沉,如果筛查的初衷是常见的三种非整倍体,那么NIPT确实是一个不错的选择。

此时你需要说明的是羊水穿刺做胎儿染色体和微阵列检测能得到额外的收益
例如:羊水穿刺能检出0.1%的其他染色体异常及1-2%的致病性拷贝数变异,这些数据来自人群的数据。而羊水穿刺的流产率约1/500-1/1000。如果孕妇能充分理解并接受上述概率,那么每一种选择都是能接受的。

 04.
结语


说到底,人生就是驾驭各种风险的旅程,但前提是,了解各种风险的概率和严重程度。

需要敲黑板的是,条件概率量化了条件对随机事件的影响,只代表统计意义上的相关性,并不代表因果关系

这是我们需要养成的思维习惯。

记得每次破案后福尔摩斯总是对华生说的一句话吗?

“It’s elementary, my dear Watson.”

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多