前言 自从上次观看了《为什么正态分布中会有个π》的视频后,B站就利用算法给我推送了一堆与正态分布相关的视频。 当我想寻找同一个视频作者的其他视频时,却发现这个作者的更新比较慢。暂时还没有与之相关的作品。 其实我内心一直还想解决另外一个问题,就正如题目所说:为啥e也会来到正态分布的公式里? e在数学中的叫法是自然常数、或者欧拉数,它实际上来自于 它这又如何与正态分布扯上了关系? 于是我就搜寻了下其他的B站高赞的作品,发现国内还是有很多人拍摄了关于“手动推导正态分布”的视频。 然而看的过程多少有些让我意犹未尽:因为这些视频作者在推导过程中,有好多关键的地方都是一句话“这个显而易见,我就不展开说了”、“这些都是比较基础的知识,很容易就算出来”…….一跳而过。 这就导致我理解的过程中老是出现断片。不得不停下来研究它这一跳而过的步骤,到底是如何推导出来的。 不过幸好在弹幕的过程中,总有神一样的读者把关键线索打上屏幕,让我能够捕捉到这些关键信息,从而补上这些断片的空档。 以下正文,为笔算推导正态分布中e出现的过程。 第一部分 MLE与概率密度 在B站的多个视频中,几乎所有播主都是一句话带过MLE的:“我们都知道,若干次独立的观测,观测的误差用MLE可以表示成L(θ)=f(x1;θ)f(x2;θ)f(x3;θ)……”。 但打住,打住 播主啊,我估计我没在你口中的那个“我们都知道”的“我们”的人群中。 所以,我看到这里,我得按下暂停键,去找一堆资料去理解这句话。 MLE(maximum likelihood estimation),就是最大似然估计法。 它和观测误差的概率密度紧密结合,是正态分布推导的基础。 下面需要一个一个基本概念做串联。 1.1关于误差概率密度 观测误差是正态分布问题研究的起源。 这个概念最早应该来自中世纪的天主教会的天文观测员对恒星、行星的天文观测。这里面也包括我们熟知的哥白尼。 图片来自网络:作为神职人员的哥白尼,在波兰弗隆堡山上的教堂观测天体 由于当时的观测水平一来受制于望远镜制造的水平,二来也和观测者接受的观测训练有关。而且,即便是训练有素的天文观测者,拿着做工水平一流的望远镜,连续观测n次某个恒星的位置,都会记录下不同的观测位置。 比方说某次观测时深呼吸了一把,或手轻微抖了一下,或者手心的汗多了一丢丢,或者脚上的鞋踩到了地砖的轻微凸起……都会导致了望远镜拿歪了那么一点点。 因此非系统性的观测误差是不可避免的。 ![]() 图片来自网络,中世纪天文望远镜复原图 在这里,我们假设某恒星的真实位置在X,教会的观测员连续独立地观测了n次,每次观测的位置为x1,x2,x3……xn。 那么就会有如下的观测误差存在:(x1-X),(x2-X), (x3-X),……(xn-X) 假设每次观测都是观测者独立的行为,那么这些观测误差实际上就是相互独立的事件。 另外,由于观测者是同一个人,用的是同一个望远镜,接受的是同一老师教的观测训练,形成了自己独立的一套观测水准,因此我们可以认为这些误差服从同一个概率分布。 我们通常用概率密度函数pdf(Probability
density function)来描述一个概率分布。 那么,我们设定一个pdf= f(xi-X)来描述某个观测误差的概率分布。 而某一天晚上观测了n次,出现了(x1-X),(x2-X), (x3-X)……(xn-X)那么多次的观测误差,这些误差的出现是服从pdf的联合分布: f (x1-X)f(x2-X)f (x3-X)……f(xn-X) 理解这个不难,就好比抛硬币,硬币的材质均匀程度一定,如果抛出正面的概率是0.6,那么某人连续独立的抛出10次,且为正正正反正正正反正正结果的概率,就是: 0.6×0.6×0.6×0.4×0.6×0.6×0.6×0.4×0.6×0.6 1.2关于MLE与误差pdf联合分布 MLE 中的M,指的是最大的。那么没有加上M这个定语之前,LE又是啥意思? 我特意查了下以前的书本和知乎、维基百科,大家都一致是这么定义LE(具体的表述不同,但意思都比较接近): 具体而言,LE即似然(Likelihood)特指似然函数。它表示的是基于观察的数据,反推最具有可能(最大概率)导致这些观测样本结果出现的模型参数值! 也就是“模型已定,参数未知”,用稍微白话一点儿的说法就是:假定这个参数是θ,那么似然函数也就成了θ 的函数,而θ是未知的。 另外,似然函数通常是多个观测数据发生的概率的联合概率,即多个观测数据都发生的概率。 这就和上面说到的pdf联合分布就关联上了。 我们设定这个θ就是某个天体的真实位置X,那么观测误差xi-X和X构建的似然函数就可以写成 那么接下来MLE要做的,就是要在给定了这些观测误差值xi-X的pdf 后,求出X,并且这个X能使得这些观测误差值在最大概率下出现。 因此,'使得这些观测误差值在最大概率下出现',就是“最大似然估计”中“最大”这个词的词意来源。 也就是到现在为止,我才终于成为了视频播主中“我们都知道”的“我们”中的一员。 第二部分 求解MLE、样本均值x、齐次线性方程组 有了上面的铺垫后,接下来我们就要通过MLE 最大似然估计进行计算 由前面的似然函数,求它的最大概率值,就是求 当它的一阶导数=0时的值 也即 为了方便求解,我们要先对等号右边取自然对数 然后再来求X的导数 此时,构建函数 这样,联合上方的结果,得到 此时,我们需要引入一个系数x,也就是样本的均值 高斯认为,x是X的无偏估计值,换句话说,x可以代替X 高斯的这一点很重要,他巧妙的解决了真实值X无法获得或无法可知的现实问题,不然后面就没法继续计算了。 这样,上式中 于是我们对上式Σ g(xi-x)中的xi求偏导,并令其=0。 等等,打住,打住。 为什么做到这一步,突然又要对xi求偏导了呢,而且是要让偏导=0? 这点视频播主没有解释,而是直接就立刻往下吭哧吭哧推导了。 我觉得确实值得思考它背后的原因。 我们最初的推导目的,是想知道正态分布为什么会有e出现。 这相当于和推导正态分布的密度函数没什么区别了。 换成数学语言就是:正态分布的pdf 长什么样子? 而上面的推导,到了这一步 相当于得到了关于观测误差的微分方程,而且是关于误差密度的pdf的微分方程。 (仔细看等号的最左边和左右边,实际上构成了误差概率密度的微分方程) 而我们解微分方程的目的,还是想知道这个微分方程中pdf的正常数学表达式。 于是才会有后续的运算,而且这些运算,也正是为了得到这个pdf 当这一点想明白了,我才继续往下看如何推导: 于是我们对上式Σ g(xi-x)中的xi求偏导,并令其=0 这一步过渡步骤,我特意放在这里,主要是为了回应视频播主中那快速的推导跳跃。 幸好在弹幕中有观众点出了x的计算式,不然在后续的推导中,我相信相当部分人会对出现的(1-1/n)感到困惑:这个系数哪里冒出来的? 接下来的篇幅会有点长,不过不难: 对于x1求偏导,并令结果=0,得到 这样,按照相同的思路,就容易对x2求偏导,并得到 继续对x3求偏导,并得到 一直计算到xn求偏导 把上面(1.1)~(1.4)做一下整理, 这样我们就会得到n个关于的g’(xi-x)=0的方程,如果把g’(xi-x)看成是若干个变量,那么他们就构成一个方程组,而且是齐次线性方程组。 我们观察这个齐次线性方程组的系数矩阵行列式 观察(1.5)可以看出它是个实对称矩阵,它的值是0 在这里,B站播主还是一句话带过:根据齐次线性方程组的解的条件,我们就不展开了。 我也学过线性代数,但我感觉播主这跳的也太快了,因此我打算简单说下为啥它的系数行列式为0,为0后又咋样? 对于(1.5), 可以抽象简化成这种a-x-a 对称的n阶行列式 首先从第二行及以下的行,都加到第一行,得 然后再将上面的行列式中[x+(1-n)a] 的x和a分别代入x=1-1/n和a=-1/n,就发现它=0。 故整个系数行列式(1.5)=0 当一个齐次线性方程组的系数行列式=0时,说明它有无穷多个解。 这时仔细观察(1.1)和(1.2)都等于0,显然(1.1)=(1.2),稍微整理一下得 而且以此类推(1.2)和(1.3)……很容易就得到 因为方程组有无穷多个解,故用C表示。 由此,反推g’(xi-x)原函数的数学式是g(xi-x) =C(xi-x)+b 按照开始时说到的x代替X时讲到的结论 得到 这里有个重要的要留意的地方是 故g’(xi-x)原函数的数学式是g(xi -x) =C(xi -x) 第三部分 解微分方程发挥作用 在第二部分开头,我们已经设定 然后我们用x代替X后,上式变成 再结合第二部分结尾我们得到的g(xi -x) =C(xi -x) 整理得: 为了求得f(xi -x),上面的式子其实就是另一个微分方程,因此接下来的推导的本质就是解微分方程。 但好在不难解,用分离法就可以了。 在这里,播主又是一句话带过:我们学过微分方程,很容易就得到…….. 算了,我还是完整还原下分离法解微分方程的过程: 令f(xi -x) = y 两边取不定积分,求得原函数为: 这样,误差的密度分布函数f(xi -x)的就求出来了,看见没,e正这个时候终于出现了。 根据之前的知识,我们还可以得到和正态分布的pdf很接近的式子 我在上篇文章《为什么正态分布中会有一个π》中介绍到下面推导的第一行,我们接着推导: 经过升维后计算得到 对上式做个小变形 这已经是和正态分布密度函数的非常接近的式子。 小结:
|
|
来自: taotao_2016 > 《计算机》