分享

张驰咨询:趣说正态分布(3)- 六西格玛管理

 六西格玛培训 2021-06-16

本篇解读正态分布最重要的内容均值和方差。

PS:对正态分布的深度理解有助于我们日后理解几个σ,长期能力和短期能力,漂移,假设检验,拒绝域,中心极限定理等等知识,后续将一一呈文。

又到了午休时间,见小潘进办公室,小王特别高兴,说:唉,憋死我了,一直想跟你说,碰到正态分布就找均值和方差,可是,说了2天正态分布,还没说到均值和方差,今天直入正题。

依然举例画图,我们想知道全国所有成年女生的身高情况,假设随机抽取1000名成年女生测量身高,那么:
如图1:抽样1000名女生,以身高为横坐标,出现的人数即频率为纵坐标,画出直方图,所有直方图柱子汇聚出一条中间高两端低的钟型曲线。抽样人数越多而且当人员分布越均匀的时候所呈现出来的钟型分布情况就越明显。图2是你上班100天下厂检查工艺时间的直方图,图1有1000个数据,正常情况抽样数多的其红色钟型曲线与直方图柱子的贴合度相对要好一些。

(图1) 

(图2)


第三,样本代表性

为便于理解,我们这样假设:假设真的花时间花精力测量了全国所有成年女生的身高(总体),发现测出来的平均身高和人员分布比例跟我们随机抽取的这1000个样本的情况基本相同,就说这个抽样样本具有代表性,可以较好地估算出总体。

那么,问题来了:样本具有代表性的前提下,你认为用全国所有成年女生的身高数据(假设有)画出来的图形应该是怎样的呢?
小潘毕竟是啃了几本关于正态检验的书,加上2次《趣说正态分布》的铺垫,小潘想起了上次睁一只眼闭一只眼听到小王说的第4层意思:同分布就是有相同的均值μ和方差σ2,脑子里出现了一幅正态分布的图形,聪明的小潘马上反应到了:小王该引出均值和方差的概念了。

的确是这样的,如果抽取1000名女生其分布跟全国所有女生的分布比例基本一致,那么,用1000个样本数据画出来的钟型分布曲线,跟用全国所有成年女生身高的数据画出来的分布曲线是不是几乎是重合的?答案显然是对的。如上图(我们暂且用5000个样本数据代表全国所有成年女生身高,以帮助理解)。其实看图形你也能想到,所谓样本有代表性,所谓的分布曲线重合,《趣说正态分布2》已经说过了,包含2个意思,即正态分布的2个独立参数:一个是均值μ,本例均值就是平均身高;另一个是方差σ2,表达的是分布情况,两根分布曲线的均值和方差相同,曲线就重合。数据服从正态分布,记为X~N(μ,σ2)式中括号里有且仅有2个参数,均值μ和方差σ2。

第四,样本代表性对均值和方差的直接影响

如下图,正态分布的概率密度函数曲线可以形象的描述为:中间高、两边低、左右对称并延伸到无穷的钟型曲线。
上图中曲线最高点对应X轴上的值就是均值,记为μ,本例中1000个样本均值跟全国女生(总体)平均身高都是168cm,即μ=168cm。钟型曲线左右两边对称,中间点是平均值,无论从图形、从实例上都很容易理解。退一万步讲,用excel将1000个数据进行算术平均也能快速算出均值。

依然试图用例子尽量形象地解读方差的概念。

假如不是随机抽样,假设抽样人员身处北方,为图省事,就近测量了大部分北方女生加上女排队员、女篮队员和在当地生活的小部分南方女生共100人的身高,测量结果很可能就会出现数据一边倒的偏态现象。关于偏态,这里就不再赘述了,下图图示非常直观。

继续刚才的思路,假设在北方测量的结果如下图,由于北方女生普遍比南方女生高,100个样本的均值提高到了176.5cm;而女篮女排队员的出现,188cm左右的女生陡增,红色直方图出现了两个峰值。如果用这100个取样结果按比例放大拿来代表全国成年女生的身高,是不是没有代表性?是不是可信度极低?图示蓝色和红色两个钟型曲线明显胖瘦不同,两根钟型曲线无法重合,也就是说两次抽样的人员分布情况不同。

正态分布曲线表达分布情况的参数是方差σ2,方差是标准差σ的平方。先从数据上初步感受一下两次抽样的方差情况:

第一次抽样1000人,人员随机抽取,分布比较均匀,样本的分布情况可以用以代表全国成年女生身高(总体)的分布情况,样本的方差为4.9732,全国所有成年女生身高(总体)的方差为4.9652。单从数据看,样本和总体的方差数值比较接近。

第二次抽样100人,人员分布不均匀,集中在北方,而且加入了女排女篮队员这些特殊身高的人群,样本的分布情况不足以代表全国成年女生身高(总体)的分布情况,样本的方差为9.0832,全国所有成年女生身高(总体)的方差为4.9652。单从数据看,样本和总体的方差数值差值较大。
在我们明知道样本代表性有偏差以后,我们来进行等方差检验。

小潘一听等方差检验,虽然用P值判断是否等方差很容易,但是,毕竟啥是等方差目前还是有点一知半解,插话道:怎么又要做等方差检验?

小王打趣说:可不是因为我年纪大了爱唠叨,我只是想从简单具体的例子让你进一步理解《一个小P值就能帮你解决客观专业选择供应商的大问题(续)》中进行等方差检验的意义。反反复复讲均值和方差,唠叨到一提到正态分布你就能想到均值和方差,同时在脑海中浮现一条红色的概率密度函数的钟型曲线并且清楚地知道均值在哪个位置方差代表什么,那我唠叨的目的就达到了。

来,做两组方差比较:第一组是1000个均匀分布的样本和全国所有成年女生(总体)的比较如下:
P值大于0.05,接受原假设,第一次随机抽样的1000个样本与总体两者方差相等。

P值小于0.05,拒绝原假设,第二次不随机抽样的100个样本与总体两者方差不同。

如我们所知,100名在北方抽取的样本和全国成年女生这个总体两个分布的方差差别较大的时候,这100名样本无法代表总体;而1000名均匀分布的样本与总体的方差基本相等。所以啊,我们要进行等方差试验,在小P值面前一探究竟。

小潘心里默默地感谢小王,其实讲方差讲标准差讲钟型曲线再讲曲线分布一步步下来还是不难理解的,刚开始一上来就等方差检验好几个不太熟悉的名词放在一起确实有点懵,现在套用这个已知如何得来的数据一解说,明白了。

小王继续说:来,老办法,再进行正态性检验,1000名随机抽取的样本,P=0.858,服从正态分布。100名在北方抽取的样本,P<0.05,不服从正态分布。如我们已经知道的原因,增加了女排女篮队员这些特殊高度的人群,这个样本数据包含了异常值,不具有代表性。呵呵,点个键看个P值总比盘问抽样者容易吧,还避免伤人自尊。

同样的,在实际工作中,当我们发现抽取到的本应呈正态分布的样本数据不服从正态分布时,应该首先回顾检查样本的代表性,回顾取样的方法是否恰当,而不是急于求成地进行box-cox转换。
当然了,我们是为了便于理解,在第二次抽样中加入了女排女篮队员这些特殊身高的人群,使数据出现异常值,且数据不服从正态分布,这是个特例,日常工作中,发生第二次抽样这种明显错误的情形不多,常见的是如下这种抽样方式。

假设进行第三次抽样,随机抽取1000名成年北方女生测量身高,样本也符合正态分布,正态性检验P值大于0.05,样本方差跟总体方差进行等方差试验无区别,过五关斩六将,终于可以进行双样本t检验了,结果又如何呢?这1000名北方女生的身高能代表全国成年女性的身高吗?

显然,如我们已知的结果,北方女孩身高普遍比较高,随机抽取的1000名北方女生不能代表全国成年女生的身高。从已知结果看图形(如下),虽然方差相同,但是,均值不同了,蓝色曲线看成北方1000名女生的身高曲线,红色曲线看成全国成年女生的身高曲线。双样本t的结果看P值(<0.05)就能得知两者均值不同,即平均身高不同。
小潘见小王半天不说话,问:讲完了?

小王:均值和方差讲完啦。

小潘:很容易啊。打懵我的概率密度函数、等方差检验,说白了没什么嘛。

小王:是啊,数学本来就很简单,只是能不能吃透数学问题,会不会用,怎么结合实际运用数学工具而已。所以,当年摩托罗拉才会想到用sigma值来表达质量问题,六西格玛的这个sigma就是标准差。

你现在弄懂了正态分布,弄懂了方差表达分布情况,以后再跟你讲sigma,一点难度都没有。
小潘恍然大悟:哦,难怪你一上来就讲正态分布。难怪说六西格玛管理是把实际问题转化为统计问题进行分析。嗯,有收获。谢谢王工!

原文来源张驰咨询:未经作者同意,如有转发需要必须在文章中给出原文链接,否则必究!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多