分享

姊妹篇:为什么正态分布中会有一个e

 taotao_2016 2023-07-17 发布于辽宁

前言

自从上次观看了《为什么正态分布中会有个π》的视频后,B站就利用算法给我推送了一堆与正态分布相关的视频。

当我想寻找同一个视频作者的其他视频时,却发现这个作者的更新比较慢。暂时还没有与之相关的作品。

其实我内心一直还想解决另外一个问题,就正如题目所说:为啥e也会来到正态分布的公式里?

图片

e在数学中的叫法是自然常数、或者欧拉数,它实际上来自于

图片

它这又如何与正态分布扯上了关系?

于是我就搜寻了下其他的B站高赞的作品,发现国内还是有很多人拍摄了关于“手动推导正态分布”的视频。

然而看的过程多少有些让我意犹未尽:因为这些视频作者在推导过程中,有好多关键的地方都是一句话“这个显而易见,我就不展开说了”、“这些都是比较基础的知识,很容易就算出来”…….一跳而过。

这就导致我理解的过程中老是出现断片。不得不停下来研究它这一跳而过的步骤,到底是如何推导出来的。

不过幸好在弹幕的过程中,总有神一样的读者把关键线索打上屏幕,让我能够捕捉到这些关键信息,从而补上这些断片的空档。

以下正文,为笔算推导正态分布中e出现的过程。

第一部分 MLE与概率密度

B站的多个视频中,几乎所有播主都是一句话带过MLE的:“我们都知道,若干次独立的观测,观测的误差用MLE可以表示成L(θ)=f(x1;θ)f(x2;θ)f(x3;θ)……

但打住,打住

播主啊,我估计我没在你口中的那个“我们都知道”的“我们”的人群中。

所以,我看到这里,我得按下暂停键,去找一堆资料去理解这句话。

MLE(maximum likelihood estimation),就是最大似然估计法

它和观测误差的概率密度紧密结合,是正态分布推导的基础。

下面需要一个一个基本概念做串联。

1.1关于误差概率密度

观测误差是正态分布问题研究的起源。

这个概念最早应该来自中世纪的天主教会的天文观测员对恒星、行星的天文观测。这里面也包括我们熟知的哥白尼。

图片

图片来自网络:作为神职人员的哥白尼,在波兰弗隆堡山上的教堂观测天体

由于当时的观测水平一来受制于望远镜制造的水平,二来也和观测者接受的观测训练有关。而且,即便是训练有素的天文观测者,拿着做工水平一流的望远镜,连续观测n次某个恒星的位置,都会记录下不同的观测位置。

比方说某次观测时深呼吸了一把,或手轻微抖了一下,或者手心的汗多了一丢丢,或者脚上的鞋踩到了地砖的轻微凸起……都会导致了望远镜拿歪了那么一点点。

因此非系统性的观测误差是不可避免的。

图片

图片来自网络,中世纪天文望远镜复原图

在这里,我们假设某恒星的真实位置在X,教会的观测员连续独立地观测了n次,每次观测的位置为x1x2x3……xn

那么就会有如下的观测误差存在:(x1-X)(x2-X)(x3-X)……(xn-X)

假设每次观测都是观测者独立的行为,那么这些观测误差实际上就是相互独立的事件。

另外,由于观测者是同一个人,用的是同一个望远镜,接受的是同一老师教的观测训练,形成了自己独立的一套观测水准,因此我们可以认为这些误差服从同一个概率分布。

我们通常用概率密度函数pdfProbability density function)来描述一个概率分布。

那么,我们设定一个pdf= f(xi-X)来描述某个观测误差的概率分布。

而某一天晚上观测了n次,出现了(x1-X)(x2-X)(x3-X)……(xn-X)那么多次的观测误差,这些误差的出现是服从pdf的联合分布:

f (x1-X)f(x2-X)f (x3-X)……f(xn-X)

理解这个不难,就好比抛硬币,硬币的材质均匀程度一定,如果抛出正面的概率是0.6,那么某人连续独立的抛出10次,且为正正正反正正正反正正结果的概率,就是:

0.6×0.6×0.6×0.4×0.6×0.6×0.6×0.4×0.6×0.6

1.2关于MLE与误差pdf联合分布

MLE 中的M,指的是最大的。那么没有加上M这个定语之前,LE又是啥意思?

我特意查了下以前的书本和知乎、维基百科,大家都一致是这么定义LE(具体的表述不同,但意思都比较接近):

具体而言,LE即似然(Likelihood)特指似然函数。它表示的是基于观察的数据,反推最具有可能(最大概率)导致这些观测样本结果出现的模型参数值!

也就是“模型已定,参数未知”,用稍微白话一点儿的说法就是:假定这个参数是θ,那么似然函数也就成了θ 的函数,而θ是未知的。

另外,似然函数通常是多个观测数据发生的概率的联合概率,即多个观测数据都发生的概率。

这就和上面说到的pdf联合分布就关联上了。

我们设定这个θ就是某个天体的真实位置X,那么观测误差xi-XX构建的似然函数就可以写成

图片

那么接下来MLE要做的,就是要在给定了这些观测误差值xi-X的pdf 后,求出X,并且这个X能使得这些观测误差值在最大概率下出现。

因此,'使得这些观测误差值在最大概率下出现',就是“最大似然估计”中“最大”这个词的词意来源。

也就是到现在为止,我才终于成为了视频播主中“我们都知道”的“我们”中的一员。

第二部分 求解MLE、样本均值x()齐次线性方程组

有了上面的铺垫后,接下来我们就要通过MLE 最大似然估计进行计算

由前面的似然函数,求它的最大概率值,就是求

图片

当它的一阶导数=0时的值

也即

图片

为了方便求解,我们要先对等号右边取自然对数

图片

然后再来求X的导数

图片

此时,构建函数

图片

这样,联合上方的结果,得到

图片

此时,我们需要引入一个系数x()也就是样本的均值

图片

高斯认为,x()X的无偏估计值,换句话说,x()可以代替X

高斯的这一点很重要,他巧妙的解决了真实值X无法获得或无法可知的现实问题,不然后面就没法继续计算了。

这样,上式中

图片

于是我们对上式Σ g(xi-x())中的xi求偏导,并令其=0

等等,打住,打住。

为什么做到这一步,突然又要对xi求偏导了呢,而且是要让偏导=0?

这点视频播主没有解释,而是直接就立刻往下吭哧吭哧推导了。

我觉得确实值得思考它背后的原因。

我们最初的推导目的,是想知道正态分布为什么会有e出现。

这相当于和推导正态分布的密度函数没什么区别了。

换成数学语言就是:正态分布的pdf 长什么样子?

而上面的推导,到了这一步

图片

相当于得到了关于观测误差的微分方程,而且是关于误差密度的pdf的微分方程。

(仔细看等号的最左边和左右边,实际上构成了误差概率密度的微分方程)

而我们解微分方程的目的,还是想知道这个微分方程中pdf的正常数学表达式。

于是才会有后续的运算,而且这些运算,也正是为了得到这个pdf

当这一点想明白了,我才继续往下看如何推导:

于是我们对上式Σ g(xi-x())中的xi求偏导,并令其=0

图片

这一步过渡步骤,我特意放在这里,主要是为了回应视频播主中那快速的推导跳跃。

幸好在弹幕中有观众点出了x()的计算式,不然在后续的推导中,我相信相当部分人会对出现的(1-1/n)感到困惑:这个系数哪里冒出来的?

接下来的篇幅会有点长,不过不难:

对于x1求偏导,并令结果=0,得到

图片

这样,按照相同的思路,就容易对x2求偏导,并得到

图片

继续对x3求偏导,并得到

图片

一直计算到xn求偏导

图片

把上面(1.1)~(1.4)做一下整理,

这样我们就会得到n个关于的g’(xi-x())=0方程,如果把g’(xi-x())看成是若干个变量,那么他们就构成一个方程组,而且是齐次线性方程组。

我们观察这个齐次线性方程组的系数矩阵行列式

图片

观察(1.5)可以看出它是个实对称矩阵,它的值是0

在这里,B站播主还是一句话带过:根据齐次线性方程组的解的条件,我们就不展开了。

我也学过线性代数,但我感觉播主这跳的也太快了,因此我打算简单说下为啥它的系数行列式为0,为0后又咋样?

对于(1.5), 可以抽象简化成这种a-x-a 对称的n阶行列式

图片

首先从第二行及以下的行,都加到第一行,得

图片

然后再将上面的行列式中[x+(1-n)a] xa分别代入x=1-1/na=-1/n,就发现它=0

故整个系数行列式(1.5)=0

当一个齐次线性方程组的系数行列式=0时,说明它有无穷多个解。

这时仔细观察(1.1)和(1.2)都等于0,显然(1.1)=(1.2),稍微整理一下得

图片

而且以此类推(1.2)(1.3)……很容易就得到

图片

因为方程组有无穷多个解,故用C表示。

由此,反推g’(xi-x())原函数的数学式是g(xi-x()) =C(xi-x())+b

按照开始时说到的x()代替X时讲到的结论

图片

得到

图片

这里有个重要的要留意的地方是

图片

g’(xi-x())原函数的数学式是g(xi -x()) =C(xi -x())

第三部分 解微分方程发挥作用

在第二部分开头,我们已经设定

图片

然后我们用x()代替X后,上式变成

图片

再结合第二部分结尾我们得到的g(xi -x()) =C(xi -x())

整理得:

图片

为了求得f(xi -x()),上面的式子其实就是另一个微分方程,因此接下来的推导的本质就是解微分方程。

但好在不难解,用分离法就可以了。

在这里,播主又是一句话带过:我们学过微分方程,很容易就得到……..

算了,我还是完整还原下分离法解微分方程的过程:

f(xi -x()) = y

图片

两边取不定积分,求得原函数为:

图片

这样,误差的密度分布函数f(xi -x())的就求出来了,看见没,e正这个时候终于出现了。

根据之前的知识,我们还可以得到和正态分布的pdf很接近的式子

我在上篇文章《为什么正态分布中会有一个π》中介绍到下面推导的第一行,我们接着推导:

图片

经过升维后计算得到

图片

对上式做个小变形

图片

这已经是和正态分布密度函数的非常接近的式子。

  1. 1.      通过这次推导,实际上告诉了我们正态分布的密度函数pdf,本质上就是观测误差的pdf

  2. 2.      齐次线性方程、微分方程的基础知识在这里起到了关键的作用。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多