分享

卜算子·正态分布

 闲之寻味 2015-11-21

正态分布吟,离散平均律。

形若嵩峦绘起伏,理顺无章序。

天数纵茫茫,竞往巅峰聚。

山麓存留百分五,画满专家欲。


  1917年美国决定参加第一次世界大战,同年4月对德宣战。由于之前美国对一战持“中立”,所以并没有备战,而现在必须在一个星期内赶制100万套军服,制衣商很为难,他都不知道军队的身高是什么样子,不得不求教于统计学家沃特·阿曼德·休哈特(Walter A. Shewhart)。休哈特说,人群中高个子和矮个子都比较少,大多数的人都是中等身材,也就是说人群的身高是一种自然的分布,也叫正态分布。只要随机抽一批美国人来量身高,得到身高的平均值标准差后就能解决问题了。
  正态分布只需要知道平均只和标准差就能轻松驾驭。平均值大家都知道,标准差就是分布中的每个数与平均值差值的平方和再开方,是一个描述群体离散程度的指标,标准差越大,群体间的差异就越大,如果群体高度接近一致,标准差则接近0。根据正态分布,入伍军人的身高分布有68%左右落在一个标准差之内,就是图中间的部分,95%的落在二个标准差之内,99。7%落在三个标准差之内…………,根据这个规律,美国军队一个星期内集结完毕开赴前线。
  正态分布也叫高斯分布,10马克纸币上就印有高斯的头像和正态分布曲线图。很多看起来杂乱无章的数据,如人群的身高、智商、考试成绩、一天之内在路上跑的汽车数量、测量误差等等自然界和社会现象都服从正态分布。某事件采集的数据绝大多数都落在曲线面积95%的范围内,越靠近中心数越多,也就是说数字分部都有向曲线颠峰集中的趋势。而落在曲线山脚部分的只占5%,也就是说是一个很小的概率,按常理几乎不可能发生。在一次实验中如果发生了小概率事件,就可以认为这个事件与实验对照间有着本质的区别,是两件不同的事件。所以统计学上的显著水平就以5%为基准,也就是科技论文里面大量p<0.05的来由,比如为了检测一种新药对某种病是否有疗效,就统计吃该种药和安慰剂的治愈率,如果两者差异显著水平p<0.05就可以认为该种药有统计学意义上的疗效,p>0.05就认为这种药和安慰剂一样没有统计学疗效,所以0.05这个数字在统计学上出现频率最多的数字,做对照实验的人是多么盼望出现p<0.05呀!但如果一个事件不服从正态分布,这p<0.05就没多少实际意义了。p值被滥用已经是心理学、流行病学领域非常普遍的问题了。




http://blog.sciencenet.cn/blog-449537-936206.html  此文来自科学网李颖业博客,转载请注明出处。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多