先谈概率,概率大家都很熟悉。对于概率的解读区别了频率流派和贝叶斯流派。如果不理解主观概率,也就无法理解贝叶斯定律的核心思想。 贝叶斯分析是整个机器学习的基础框架。首先从贝叶斯统计说起。 先谈概率。概率大家都很熟悉。然而说到定义却不一定说对,中学课本会说,概率是一件事发生的频率。 而贝叶斯框架下的概率理论却给了另一个角度:概率是我们的主观概念, 表明我们对某个事物发生的相信程度。 如Pierre Lapalace所说: Probability theory is nothing but common sense reduced to calculation. 这正是贝叶斯派的核心。它解决的是来自外部的信息与我们大脑内信念的交互关系。 两种对于概率的解读区别了频率流派和贝叶斯流派。如果不理解主观概率,也就无法理解贝叶斯定律的核心思想。 贝叶斯学派与频率学派有何不同?简单地说,频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。举例而言,想要计算抛掷一枚硬币时正面朝上的概率,我们需要不断地抛掷硬币,当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。 然而,贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。频率学派下说的「随机事件」在贝叶斯学派看来,并不是「事件本身具有某种客观的随机性」,而是「观察者不知道事件的结果」而已,只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下,观察者又试图通过已经观察到的「证据」来推断这一事件的结果,因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此,在贝叶斯框架下,同一件事情对于知情者而言就是「确定事件」,对于不知情者而言就是「随机事件」,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。 总的来说,贝叶斯概率论为人的知识(knowledge)建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。为了描述这种更新过程,贝叶斯概率论假设观察者对某事件处于某个知识状态中(例如:小明先验地相信一枚硬币是均匀的,可能是出于认为均匀硬币最常见这种信念),之后观察者开始新的观测或实验(小明开始不断地抛硬币,发现抛了100次后,居然只有20次是正面朝上)。经过中间的独立重复试验,观察者获得了一些新的观测结果,这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念(小明开始怀疑这枚硬币究竟是不是均匀的,甚至开始断定硬币并不均匀)。在这一过程中,观察者无法用简单的逻辑来推断,因为观察者并没有完全的信息作为证据,因此只能采用似真推断(plausible reasoning),对于各种各样可能的结果赋予一个「合理性」(plausibility)。例子中,小明原先认为硬币的分布是均匀的,于是根据小明原有的信念,这个论断合理性非常高;在观察到100次抛掷中只有20次正面朝上后,小明开始怀疑硬币的均匀性,此时小明很可能认为「硬币不均匀」这一推断的合理性很高,支持的证据就是他刚刚实验的观测结果。 上面的例子用贝叶斯概率论的语言来描述,就是观察者持有某个前置信念(prior 从这个意义上来讲,贝叶斯概率论试图构建的是知识状态的表征,而不是客观世界的表征。因此,在机器学习、统计推断中,许多情况下贝叶斯概率推断更能解决观察者推断的问题,而绕开了关于事件本体的讨论,因为没有讨论本体的必要性。 贝叶斯分析居然能解决家庭纠纷? 来看一个有趣的案例:假如你是女生, 在你的老公包里发现了别的女人内裤,那他出轨的概率是多少。
在这里1其实就是先验概率P(A),而2是条件概率P(B|A), 最终得到3后验概率P(A|B)。这三种即是贝叶斯统计的三要素。基于条件概率的贝叶斯定律数学方程极为简单: A即出轨, B是内裤出现, 你得到1,2,就可以根据公式算出,根据内裤出现判断出轨的概率。 先验概率在贝叶斯统计中有重要意义,首先先验概率即我们在取得证据之前所指定的概率P(A), 这个值通常是根据我们之前的常识,带有一定主观色彩。 就像刚刚说的出轨的问题, 你的先验概率代表了你对丈夫的信心。 有一个非常有趣的现象是,如果我们的先验概率审定为1或0(即肯定或否定某事发生), 那,无论如何增加证据,也依然得到同样的条件概率(此时P(A)=0 或 1 , P(A|B)= 0或1) 。这告诉我们一个经验:不要过早下论断, 否则预测也就无法进化了。 如果想让认知进步,就要给各种假设留空间。 贝叶斯分析看辛普森案 贝叶斯分析的思路,对于由证据的积累来推测一个事物发生的概率具有重大作用。当我们要预测一个事物, 首先根据已有的经验和知识推断一个先验概率, 然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程,我们称为贝叶斯分析。 贝叶斯分析中的三要素在不同的问题中通常有侧重点 。 很多时候,都是忽略先验概率的作用,比如描述一个人很书呆子气让你判断他是大学老师还是销售员的经典案例(要看先验大学老师还是销售员哪个多啊)。 但有时,我们也不理解条件概率, 比如著名的辛普森案。为证明辛普森有杀妻之罪,检方说辛普森之前家暴。辩护律师说,美国有400万女性被丈夫或男友打过,其中只有1432人被杀,概率是2800分之一。 这其实是误用了后验概率。这里的条件是“被杀”且“有家暴”,而要推测的事件是“凶手是男友”(事实上概率高达90%),这才是贝叶斯分析的正当用法, 而辩护律师却完全混淆了条件与需要验证的假设。 理解贝叶斯分析最好的方法即图像法。这里的A的面积即先验,后验是阴影占篮圈的百分比。 贝叶斯分析可以瞬间理解一些常用的理论, 如幸存者偏差。你发现一些没读过书的人很有钱,事实上是你发现就已经是幸存者了(对应上图中小红圈), 而死了的人(红圈外的大部分面积)你都没见到啊。 还有阴谋论——阴谋论的特点是条件很多很复杂, 但是条件一旦成立,结论几乎成立,你一旦考虑了先验,这些条件成立本身即很困难, 阴谋论不攻自克。 图上红圈和篮圈的面积, 很少我们在开始就知道,这才是应用中的难点。 此处,贝叶斯分析的框架也在教我们如何处理特例与一般常识的规律。 如果你太注重特例(即不看先验概率) ,很有可能会误把噪声看做信号。 如恪守先验概率, 就成为无视变化而墨守成规的人。其实只有贝叶斯派的人生存率会更高, 因为他们会重视特例, 但也不忘记书本的经验,根据贝叶斯公式小心调整信心,甚至会主动设计实验根据信号判断假设,这就是我们下一步要讲的。 贝叶斯决策判定男女 在刚刚讲到的贝叶斯统计分析的基础上, 我们就可以引出一个更核心的概念, 贝叶斯决策。 贝叶斯决策主要包含四个部分: 数据(D), 假设(W),目标(O),决策(S)。 此处数据即之前讲到的证据。假设是我们要验证的事实,目标是我们最终要取得优化的量,决策时根据目标得到的最后行为。与上一步贝叶斯分析增加的部分是目标和决策。假设在问题里如果是连续的往往以参数空间的形式表达。 然后我们可以按照如下步骤做:
贝叶斯决策如果一旦变成自动化的计算机算法, 它就是机器学习。我们就用贝叶斯决策诠释一个最简单的机器学习分类算法—— 朴素贝叶斯 首先, 此处的证据是身高和体重,假设是男或女。先验概率是人口中的男女比例, 而我们需要掌握的条件概率是男性和女性的身高和体重分布,这应该是很好掌握的信息。 然后我们可以根据贝叶斯公式求解后验概率,而此处我们要做的决策时男女,目标是分类错误率最低,决策即性别分类。 (图: 朴素贝叶斯,核心在于假设证据互相独立) 由此我们得到下列乘法公式(feature对应x) 用数学语言白表征这个问题, X特征向量,h把X映射成不同的分类, 我们要求得是P(y|x) 正确率最大的假设(y)。 掷硬币的概率不是50% 事实上,贝叶斯决策很少只涉及A和B, 而是内部包含关键的隐变量(参数),涉及对所研究事物的一些基本预设。比如下面这个简单例子: 抛硬币,一个硬币被投掷10次,9次朝上,那么根据频率学派的观点, 得到第11次投掷的概率不变为0.5 ,如果你回答了0.9, 你经常会被看成一个傻X。 其实不然,天底下哪有一样的硬币呢? 那么问题来了,设一个赌局, 一次正面向上你可以受益100, 反面惩罚150。基于刚才的事实,要不要赌? 可以套用贝叶斯决策的理论来分析。 这里的一个重要的隐变量是每一次投掷硬币的概率,这个数字按照经典频率学派认定一定是0.5, 而按照贝叶斯学派的观点, 需要把这个变量看成是未知的,具有一定先验概率,之后严格按照贝叶斯公式计算新加入证据对先验概率的影响。 此处的先验概率即你对硬币向上0.5这件事的信念, 你越相信这个事实, 这个分布越尖,反之越宽广。 我们用希腊字母θ来表征这个概率。整个决策表述如下: 公式的含义是你要用求解已知9次朝上1次朝下的时候求解你下一次投掷硬币的期望收益, 并因此决策要不要赌。 中间要验证的假设空间,即每一次投掷为正的概率,我们依然以每次事件独立和该概率不随时间变化为基准(如果不是问题将无限复杂),那么证据将根据上述公式改变假设空间的概率分布, 而最终的期望可以根据这个分布求出。决策即使得这个期望最大的解。 注意,此处先验十分重要,因为它影响决策结果。而这又是一个很主观的东西,如对0.5有绝对信心,那么你的就会非常尖,这时你需要得到大量偏离0.5的证据才能逐步纠偏。 对书呆子,估计会倾向给出一个比较尖锐的先验分布,相信书里说的0.5而不赌, 而一些更加倾向于相信特例的人则会给出很平坦的先验而更大的概率去赌。最终后者发财和倾家荡产的几率都比较高,而前者比较容易旱涝保收。 当然, 在数据量超大,比如说1000次有900次为正的情况下,我们几乎不需要考虑先验,此时几乎可以认定投掷的概率就是0.9。 (图:证据对信念发生作用的贝叶斯过程) 大脑是一个贝叶斯网络? 如果贝叶斯决策中牵涉的证据更复杂呢? 如证据间不独立而是互为因果呢?这时候需要更强大的工具——贝叶斯网络。 世事无一不处于复杂的联系之中, 而贝叶斯网络正是刻画这种关联的数学表述。 构建一个贝叶斯网络的关键方法是图模型,构建一个图模型我们需要把具有因果联系的各个事件用箭头连在一起。 下图例子是个事件:草坪湿润了,那么推测此时天气多云的概率,因为导致草坪湿润的原因有下雨、或洒水车在工作, 而这两者又都和多云联系,那么可以画出如下图形,按贝叶斯概率公式逐级推出每个事件的概率。 贝叶斯网络的特性是,当某点一个证据出现, 整个网络中事件概率都变化。所谓看到镜中白发, 就改变你对人生中所有重大事件概率的推断。 说大脑是一个贝叶斯网络, 这句话又对又不对。大脑学习的原理,是一个新的证据逐步和内部信念耦合的过程,本质即贝叶斯网络。但大脑又是不完全的贝叶斯推断机, 每人都有一个顶层以三观构建,底层逐步深入关于具体问题看法的贝叶斯网路;但是我们却很少有能够通过一个证据更新整个网络的能力,或者是我们吸收新证据的速度也往往十分缓慢。这是为什么我们经常具有自相矛盾的信念体系。 |
|