征兵的故事美国海军每次征兵都会打出号召性的广告,尽其所能地宣传,让最优秀的年青人加入军队,还要想办法不让父母们担心孩子的安危。 美军征兵海报 这不,有一年广告是这么说的:
普通人一看,有这么3点反应:
恭喜,中计了! 这个诡计的要害其实一语即可道破: 纽约市民中包括老弱病残,而美国海军全是挑选出来的精壮青年,后者正常的死亡率应该连0.2%都不到,而到了海军要多牺牲出0.7%,还说不危险?! 军人上战场都是冒着生命危险 所以,想用概率的比较来说明问题,就必须很清晰概率的计算前提。 要想通过比较概率来说明问题,前提是: 分析事件的关联性与独立性。 具体地说,一个人是美国海军这个事件,与一个人是普通市民的这个事件,二者是有隐含逻辑关联的,因为一个人100%是普通市民,但也许只有1%可以选中成为海军士兵。 精要总结: 两个概率的统计群体,拥有逻辑上的关联性,但该关联性没有体现在概率计算中,因此两个概率值是无法做比较的。 如果注意观察,在生活甚至工作中,这样的“伪对比”其实非常之多,稍不注意就会落入概率陷阱之中。 甚至可以说,我们日常见到的广告宣传中,凡是出现概率或比率的,都需要擦亮双眼仔细辨别。 条件概率概率对比的正确操作,是使用“条件概率”。 直接上例子: 统计发现,人类患肺癌的概率为0.1%,而吸烟者患肺癌的概率为0.4%,如何知道不吸烟的人患肺癌的概率是多少呢?(人群中吸烟者的比率为20%) 第一反应,0.4>0.1,不吸烟肯定不那么容易患肺癌,那么差多少呢? 归纳一下已条件:
最后那一行的意思表示“条件概率”: P(肺癌|吸烟) 表示 在吸烟的条件下 得肺癌的概率。 竖线后面就表示这个概率计算的总体,所以说,为什么要用一竖来表示条件概率,因为这一竖“|”其实就是除号“/”啊! 那么,咱们要求的,不吸烟的人患肺癌的概率 可以表示为: P(肺癌|不吸烟) 这里采用“分解法”,对于全体人类而言,患肺癌的人分两类:
所以: P(肺癌) = P(肺癌 且 吸烟) +P(肺癌 且 不吸烟) = P(肺癌|吸烟) x P(吸烟)+P(肺癌|不吸烟) x P(不吸烟) 这种把一个事件(肺癌)用另一个事件(吸烟)给分割开的公式,叫做 全概率分解。 而式中,只有一个未知量,得到 P(肺癌|不吸烟)=0.025%。 戒烟吧,还您一个健康的肺 可见:
全概率分解展现的是两个事件的关联性。 贝叶斯公式如果对上面式子中的乘号有疑问,可以再看看下面的图形解释。 假设有事件A 和 B : 显然,事件A 与 事件B有交集,也就是说他们可能同时发生,(比如一个人既吸烟,同时也患了肺癌),那么AB同时发生的概率可以表示为: 或: 都是可以的。 所以显然: 上面这三个式子叫做贝叶斯原理,这个公式非常擅于解决这样一类问题: 假如已经发生了一个事件,如事件B,那么,在此基础上,事件A会发生的概率是多少呢? 其实,就是求 P(A|B),由上式,显然: 这个贝叶斯原理可厉害了,是人工智能算法中的一项重要技术,其实它在生活中的方方面面都有应用,理解贝叶斯原理对于大脑进行逻辑判断非常有帮助。 上个实例吧。 检查结果为阳性!你怀疑自己得了一种严重的疾病,虽然这种疾病在人群中比较少见(概率为1%),但是你还是到医院来检查一下,检查结果竟然是阳性(阳性意思就是判定有病),大夫说他们医院进口的检验机器正确率高达98%! (要假设机器的检验正确或错误,与检验样品无关,是机器本身的功能性) 你更绝望了! 看起来好像必然会生病了,98%的正诊率怕是跑不掉了。 是直接做手术?还是再做一次昂贵的检查? 其实,学过上面的知识,你会更理智地更准确地判断问题。 首先,明确“阳性”与“有病”是两个概念,“阳性”是医院的诊断,而医院是完全有可能误诊的,所以说有4种情况:
目前的情况是,事件“阳性”已经发生了,所以我们想求的是: P(有病|阳性) 有事件发生了,所以根据贝叶斯公式得到: P(有病|阳性) = P(有病 且 阳性) / P(阳性) 根据贝叶斯定理—— P(有病 且 阳性) = P(有病 且 正诊) = P(有病) x P(正诊) = 0.01 x 0.98 = 0.0098 根据全概率分解—— 阳性包括 有病查出阳性 和 没病查出阳性(误诊了) P(阳性) = P(正诊 且 有病) +P(误诊 且 没病) = 0.98 x 0.01 + 0.02 x 0.99= 0.0296 最后计算结果为 P(有病|阳性) = 33% 也就是说,虽然检查出了阳性,但你患病的概率其实中只有1/3,当然要再检查一次,不要着急做手术! 那么,这是什么道理呢? 原因就在于,这种病比较罕见,只有1%,这就造成了虽然误诊率小,但是不患病却误诊成阳性的人数比例就显得多,事实上是患病而正诊成阳性的2倍之多。 当然,这个例子在实际情况中不太成立,主要因为诊断的正误不是随机的,诊断主要还是根据医生的经验,而且检查往往也不是一项指标而是许多项指标。 理解贝叶斯定理——相关度因子贝叶斯定理是基于两个事件的关联性,是在B事件发生后,对A事件发生概率的重新评估与预测。 P(A) —— ''预估概率'',指在B发生前,对A事件发生概率的初步判断,所以也叫“先验概率”。 P(A|B) —— ''修正概率'',指B事件发生后,对A事件概率的重新评估与预测,所以也叫“后验概率”。 P(B|A)/P(B)这一部分看起来都是“不对称的”,所以想要彻底理解,有一个最关键的变形步骤,好像没见有资料这么提,却是理解贝叶斯的关键所在—— 上文提到: 那么,就把 P(B|A) = P(A且B)/P(A)代入叶贝斯公式,得到: 更易理解的叶贝斯公式 下面精彩了,咱们把 这一部分,称为: 关联度因子(Likelihood ratio) 所以贝叶斯原理是在教你:如何根据出现的新信息修正概率预测呢! 修正概率 = 预估概率 x 关联度因子 详解关联度因子这个关联度因子终于变得对称了,它的深层含义就昭然若揭了 |
|
来自: 倪志刚tfqfurz2 > 《文件夹1》