第一时间获取价值内容
一、机器下学习为什么要使用概率
不确定性有三种可能的来源:
这块就是告诉我们,概率很重要,机器学习离不开它 二、频率学派和贝叶斯学派:简单的理解的话: 频率学派:研究的是事件本身,所以研究者只能反复试验去逼近它从而得到结果。比如:想要计算抛掷一枚硬币时正面朝上的概率,我们需要不断地抛掷硬币,当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。 贝叶斯学派:研究的是观察者对事物的看法,所以你可以用先验知识和收集到的信息去描述他,然后用一些证据去证明它。还是比如抛硬币,当小明知道一枚硬币是均匀的,然后赋予下一次抛出结果是正面或反面都是50%的可信度(概率分布),可能是出于认为均匀硬币最常见这种信念,然后比如小明随机抛了1000次,发现结果正是这样,那么它就通过这些证据验证了自己的先验知识。(也有存在修改的时候,比如发现硬币的材质不一致,总之就是这么一个过程) 不是很懂?那我们继续举起”栗子“来:如果一个医生诊断了病人,并说该病人患流感的几率为40%,这就不好办了,因为这意味着非常不同的事情——我们既不能让病人有无穷多的副本,也没有任何理由去相信病人的不同副本在具有不同的潜在条件下表现出相同的症状。若我们用概率来表示一种信任度,其中1表示非常肯定病人患有流感,而0表示非常肯定病人没有流感。这样医生也就变的好办了。然后前面那种概率,直接与事件发生的频率相联系,被称为频率派概率;而后者,涉及到确定性水平,被称为贝叶斯概率。(当然,这知识举例,不是说贝叶斯学派优于概率学派) 来个比喻:概率学派像唯物主义,世间事物不会以你的意识的转移而转变,概率就是事物客观的存在的现象。 贝叶斯学派就是我思故我在,同一个事件,对于观察者来说,他若知道,那就是确定性事件,如果不知道,就是随机事件,鬼知道它到底存不存在。 总的来说,两个学派站的角度不一样,贝叶斯概率论为人的知识(knowledge)建模来定义概率这个概念。频率学派试图描述的是事物本体,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新,描述的是观察这的对事物看法。 上面就是科普一样,我们有概率学派和贝叶斯学派,有兴趣可以了解一下! 三、何为随机变量和何又为概率分布?随机变量:随机变量可以随机地取不同值的变量。我们通常用小写字母来表示随机变量本身,而用带数字下标的小写字母来表示随机变量能够取到的值。例如, 对于向量值变量,我们会将随机变量写成 X ,它的一个值为 随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数;它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。注意:下面很多在知识点都会分离散和连续的分别讲述,但其实原理类似。 当随机变量是离散的,我们称是离散型随机变量,如果是连续的,我们会说是连续型随机变量。 概率分布:给定某随机变量的取值范围,概率分布就是导致该随机事件出现的可能性。而从机器学习的角度来说的话,概率分布就是符合随机变量取值范围的某个对象属于某个类别或服从某种趋势的可能性。 这一节很重要,重要程度相当于学数学时的1+1=2,简单基础又及其重要。 四、条件概率,联合概率和全概率公式:条件概率:其记号为P(A|B),表示在给定条件B下A事件发生的概率。 举个“栗子”:P(第二次投硬币是正面|第一次投硬币是正面):就是在“第一次投硬币是正面”时“第二次投硬币是正面”的概率。不过,既然举了这个例子,那么就顺带问一下:你以为P(第二次投硬币是正面|第一次投硬币是正面)的结果是多少呢?1/4?错。答案是1/2,是不是很意外?看完下面的两种情况你就明白了。 条件概率的两种情况:
条件概率链式法则: 任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式: 这个规则被称为概率的链式法则或者乘法法则。它可以直接从条件概率的定义中得到。例如,使用两次定义可以得到 联合概率:联合概率为两个事件同时发生的概率。记为:P(A and B)或直接P(AB) 然后,因为两个事件的发生会有先后,所以联合概率可以进一步描述为:“事件A发生的概率”和“事件A发生后,事件B发生的概率”。于是:P(A and B)= P(A)P(B|A) 结合刚才“条件概率的两种情况”,可以得出:P(A and B) 根据不同的情况有如下两种结果:
全概率公式:公式表示若事件B1,B2,…,Bn构成一个完备事件组且都有正概率,则对任意一个事件A都有公式成立。注意:Bi是两两互斥的,如下图: 举例:某地盗窃风气盛行,且偷窃者屡教不改。我们根据过往的案件记录,推断A今晚作案的概率是0.8,B今晚作案的概率是0.1,C今晚作案的概率是0.5,除此之外,还推断出A的得手率是0.1,B的得手率是1.0,C的得手率是0.5。今晚只有一个小偷出手,那么,今晚村里有东西被偷的概率是多少? P(A)=0.8,P(B)=0.1,P(C)=0.5 将“村里有东西被偷”记为S,根据得手率可以得到 P(S|A)=0.1,P(S|B)=1.0,P(S|C)=0.5 很简单,所求得的就是 P(S)=P(A)P(S|A)+P(B)P(S|B)+P(C)P(S|C)=0.43 祝这个村晚上好运吧。 这三个公式是基础公式,像条件概率,在深度学习中很多conditional的做法,就是条件概率嘛,然后全概率,下面的贝叶斯公式和全概率息息相关,重要的很! 未完待续! |
|