分享

正态分布的前世今生(3)-三大分布(卡方分布、t分布、F分布)

 红豆居士 2018-07-19

在20世纪以前,统计学所处理的数据一般都是大量的、自然采集的,所用的方法以拉普拉斯中心极限定理为依据,总是归结到正态。到了19世纪末期,数据与正态拟合不好的情况也日渐为人们所注意,

进入20世纪之后,人工试验条件下所得数据的统计分析问题,日渐被人们所重视。由于试验数据量有限,那种依赖于近似正态分布的传统方法开始招致质疑,这促使人们研究这种情况下正确的统计方法问题。

在这样的背景之下,统计学三大分布χ2分布、t分布,F分布逐步登上历史的舞台。

这三大分布是数理统计必须的知识点。这三个分布都和英国现代数理统计学的三位大神有关

正态分布的前世今生(3)-三大分布(卡方分布、t分布、F分布)

χ2分布

最早发现这个分布的其实是物理学家麦克斯韦,他在推导空气分子的运动速度的分布时,发现分子速度在三个坐标轴上的分量是正态分布,而分子运动速度的平方v^2符合自由度为3的χ2分布。麦克斯韦虽然发现了这个分布,但是真正把他完善并推广的是皮尔逊。没错,就是在数据挖掘中经常出现的,就是那个皮尔逊相关系数的那个人。

在分布曲线和数据拟合优度检验中χ2分布可是一个利器。而且皮尔逊的这个工作被认为是假设检验的开山之作。

皮尔逊在统计学上研究颇深,在19世纪末到20世纪初的很长一段时间,一直都是数理统计方面的执牛耳者。

t分布

戈塞特(W.S.Gosset),笔名是大家都熟悉的学生氏(Student),而他发现的是t分布。戈塞特是化学、数学双学位,依靠自己的化学知识进酿酒厂工作,工作期间考虑酿酒配方实验中的统计学问题,追随卡尔·皮尔逊学习了一年的统计学,最终依靠自己的数学知识打造出了t 分布而青史留名。1908年,戈塞特提出了正态样本中样本均值和标准差的比值的分布,并给出了应用上极其重要的第一个分布表。戈塞特在t分布的工作是开创了小样本统计学的先河。

F分布

费希尔(R.A.Fisher) ,F分布就是为了纪念费希尔而用他的名字首字母命名的。在这三位中当属费希尔的天赋最高,费希尔统计造诣极高,受高斯的启发,系统地创立了极大似然估计法,这套理论现在在统计学参数估计中用处最广

费希尔还未出名,皮尔逊已经是统计学的泰斗了,两人岁数相差了33岁,而戈塞特介于他们中间。三人在统计学难免切磋见解。费希尔天赋极高,年少气盛;而皮尔逊为人强势,难免固执己见,以大欺小;费希尔着实受了皮尔逊不少气。而戈塞特性格温和,经常在两人之间调和。毕竟是长江后浪推前浪,一代新人换旧人,在众多擂台比试中,费希尔都技高一筹,而最终取代了皮尔逊成为数理统计学第一大剑客。

由于这三大剑客和统计三大分布的出现,正态分布在数理统计学中不再是一枝独秀,数理统计的领地基本上是被这三大分布抢走了半壁江山。不过这对正态分布而言并非坏事,我们细看这三大分布的数学细节:假设独立随机变量

正态分布的前世今生(3)-三大分布(卡方分布、t分布、F分布)

这三大分布皆出自正态分布的,当初都是从正态分布切入进行研究的。有了统计学三大分布的加持,正态分布在数理统计学独领风骚。

统计学这三大牛成为了现代数理统计学的奠基人。以哥塞特为先驱,费歇尔为主将,掀起了小样本理论的革命,事实上提升了正态分布在统计学中的地位。在数理统计学中,除了以正态分布为基础的小样本理论获得了空前的胜利,其它分布上都没有成功的案例,这不能不让人对正态分布刮目相看。在随后的发展中,相关回归分析、多元分析、方差分析、因子分析、布朗运动、高斯过程等等诸多统计分析方法陆续登上了历史舞台,而这些和正态分布密切相关的方法,成为推动现代统计学飞速发展的一个强大动力。

当然正态分布还有更多令人着迷的数学性质,我们可以欣赏一下:

正态分布的前世今生(3)-三大分布(卡方分布、t分布、F分布)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多