分享

正态分布的神秘面纱下到底隐藏了什么?

 drjiangliang 2019-05-17
正态分布又被称为高斯分布,在自然、工程、物理、数学、统计、生物、医学、金融等众多学术领域都起着极其关键作用,是开展学术研究的重要基础。更为神奇的是,正态分布在自然界中无处不在,能够让人们在纷繁芜杂的数据背后看到隐隐的秩序。正所谓:

神说,要有正态分布,就有了正态分布。 

神看正态分布是好的,就让随机误差服从了正态分布。

那么,什么是正态分布呢?今天我们就来聊聊正态分布的特点和性质,一起来揭开正态分布的神秘面纱。

正态分布的特点


许多变量的分布都是正态分布,比如体重、身高、IQ测试。

正态分布是单峰的,在其单峰的两侧是对称的,它的中位数、均值与众数相同。由于该分布延伸的形状像一个钟形,我们称之为“钟形”分布。

正态分布的四大条件
(如果一个数据集满足以下四个标准,那么它就接近于正态分布)


1. 大多数数值集中于均值附近,使分布有一个良好的单峰;

2. 数值均匀地分布在均值周围,使分布对称;

3. 与均值的离差越大,出现的概率就越小,形成逐渐减小的尾部;

4. 该变量的取值是由多种不同的因素共同作用造成的,如遗传和环境因素。

注意: 统计学上有专门的方法来检验变量是否满足正态分布,扫描二维码,课程第七章有详细讲解。

22小时100节视频课,打牢学术基础

正态分布的基本性质


均值:决定图形的左右移动,反映的是数据的中心位置;如下动图展示了切换均值时,正态分布图形的移动,可发现图形只会左右移动。

标准差/方差:决定图形的高矮胖瘦,反映的是数据内部的变异程度。下面的动图展示了切换标准差的数值时,正态分布形状的变化,可发现图形的高矮会变化。

正态分布的3σ原则(68-95-99.7规则)

1.  大约68% (更精确的是68.3%)或者大概2/3的数值落在距均值1个标准差的区间内。

2.  大约95% (更精确的是95.4% )的数值落在距均值2个标准差的区间内。

3.  大约99.7%的数值落在距均值3个标准差的区间内。

4.  在统计学中使用更多的是1.96倍标准差和2.58倍标注差。即95%的数值落在距均值1.96个标准差的区间内; 99%的数值落在距均值2.58个标准差的区间内;

下面的动图展示了3σ原则

注: 上面的三个动图是使用 Excel 绘制的,如何用Excel绘制带控件的正态分布图像呢?可扫描下方二维码,在课程的第53节查看详细视频讲解。

22小时100节视频课,打牢学术基础

直方图与概率密度图


直方图表示的是不同区间的数值的频数,其纵轴显示的是不同区间的数值的绝对数量;其每个柱子的高度表示的是该区间的数值的频数。

概率密度图表示的不同区间的数值的频率,其纵轴显示的是不同区间的数值的相对频率;概率密度图中整个曲线与坐标轴围成的面积为1,曲线上单个点的取值无现实意义,通常可以画出如图所示的区间,区间的面积就表示了对应的横轴取值区间出现的频率。这个频率和直方图中对应区间的频数是相互对应的。

两者都可以用来观察一组数据的分布形态,经常用于初步判断一组数据是否满足正态分布。

Excel可以直接输出直方图,但无法直接绘制概率密度图,使用R语言可以非常轻松的绘制得到一组数据的概率密度图。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多