分享

05 David S.Moore_03.正态分布&标准差/标准计分/百分位数

 集思见闻录 2015-09-18

05 David S.Moore_03.正态分布 & 标准差/标准计分/百分位数

 

1.中位数(Mmedian

位于一组数据的正中间,是一半数比这个值大,一半数比这个值小的数。(把一串数字看做一条绳上的一个个打结的点,中位数的位置就是这根绳子长度中间的位置,与那串数字的每一个个体(结点)无关。)

9-9-22-32-33-39-39-42-49-52-58-65-70

括号中的39是中位数,有6个值在它左边,有6个值在它右边。

·当样本数为奇数时,中位数的位置=(N+1)/2。注意:此处说的是所在位置,不是中位数本身的数值。上例中一共有13个数字,是奇数,中位数的位置=(13+1)/2=7,也就是第七个数字。

·当样本数为偶数时,中位数的值=(N/2位置上的数加上N/2+1位置上的数的和)/2

8-13-14-16-23-26-28-33-39-61。这10个数字是偶数样本,所以中位数=(23+26)/2=24.5

 

 

2.四分为数(Q):

将所有数值按大小顺序排列并分成四等份,处于三个分割点位置的得分就是四分位数。

9-9-22-32-33-39-39-42-49-52-58-65-70

一共有13个数字,中位数是括号中的39,第一个四分位数(Q1)的位置是左半边2232的中间点,数值=(22+32)/2=27。第三个四分位数(Q3)的位置在右半边的5258之间,数值=(52+58)/2=55

 

如果一个样本有31621个数字,要找四分位数,可以先找出中位数的位置=(31621+1)/2=15811,第一个四分位数的位置=(前面的15810个数+1)/2=7905.5

 

 

3.五数综合(five-number summary

我们用中位数(中间点)来描述中心,用四分位数来描述离度。

五数综合是从小到大排列,包括最小数、第一四分位数Q1、中位数M、第三四分位数Q3、最大数。这五个数字对于分布的中心和离度,提供了大致完整地描述。根据五数综合画出的图,就是箱形图(boxplot)。

05 David S.Moore_03.正态分布标准差/标准计分/百分位数 - m_v_priest - 踏雪吟歌

·箱形图中间的箱体,是从第一四分位数延伸到第三四分位数(注意:不是位置,是数值!)。

·箱体里的直线标示出中位数的位置。

·箱体两头有直线往外延伸到最小数和最大数。

 

因为箱形图包含的细节比直方图和茎叶图少,所以它必须同时比较至少两个以上的分布。

05 David S.Moore_03.正态分布标准差/标准计分/百分位数 - m_v_priest - 踏雪吟歌

上图为比较不同教育程度人的收入分布的箱形图。

 

 

4.标准差

五数综合并不是描述分布最常用的数值。最常用的是拿平均数(mean)来度量中心,加上标准差(standard deviation)来度量离度。

标准差是找出观测值距平均数的平均距离。只有在没有离度的时候,标准差才会等于0。而当观测值距离平均数散布得越远时,标准差就越大。

计算步骤分三步:

 

49-32-33-39-22-42-9-9-39-52-58-70-65

①先找出每个观测值距平均数的距离,

并把这个距离平方。

13个数字。其平均数是=n个数字的和/n =(49+32++65) /13 =39.92

各数字相距平均数的距离,再平方,也就等于:

——————

49(49-39.92)^2=82.45

32(32-39.92)^2=62.73

……

65(65-39.92)^2=629.01

——————

②把所有的距离平方加起来,并除以n-1。距离平方的“平均”的值,叫做方差(variance)。

把所有距离的平方,相加起来,=82.45+62.73++629.01=4438.97

方差=4438.97/13个数字-1=369.91

③再把这个方差取平方根,就是标准差s

标准差=369.91^1/2=19.23

 

n个数据X1 ,X2 ,X3Xn ,数据的平均数为X,标准差σ:

05 David S.Moore_03.正态分布标准差/标准计分/百分位数 - m_v_priest - 踏雪吟歌

把所有的距离平方,和后,平均,再开方。也就得到标准差。

 

投资者应利用统计来评判、对一项投资年获利的分布做评估。不成熟的投资者只会看平均获利高不高,而不了解风险大小(即获利的散布广不广,变化大不大)。在共同基金的定期报告中,都会标出标准差是多少。标准差数值越大,代表回报远离过去平均数值,回报较不稳定,风险高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。

1950-1999年的50年中,三个投资的年获利平均数和标准差数值是:

————————

投资      平均获利 标准差

短期国库券 5.34%   2.96%

长期国库券 6.12%   10.73%

股票       14.62%  16.32%

————————

从上面数据中可以看出:平均获利上升,风险(变异)就跟着上升。

短期国库券1年就偿还,其获利随每年利率的变化而不同。

长期国库券是30年后偿还,风险比较大,如果利率上升,你拥有的国库券价值就下降。因为一般来说,国债的票面利率在发行时就是确定的,你的5年期国债票面利率为8%,2年以后,如果市场利率上升到10%,你若继续持有国债,那么以后的3年你每年要损失2%的利息收益(购买国债使你的未来利率收益被锁死了,不随市场变动而变动)。而如果你因此想把国债出售掉,因为现在的利率是10%,购买人为了保证他能有大于等于10%的收益,必然要求你在出售价格(也就是他的购入成本)上做出让步。显然,无论你作何种选择,都无法回避利率风险。如果该国债不是5年期而是10年期,你作为投资者受到的损失就更大。当然,反过来,如果你购买国债后市场利率下降了,也会得到额外的收益。

所以,如果利率有可能上升,就应避免投资长期债券,而购买短期债券。如果利率可能下降,那么投资于长期债券更好,但这也取决于利率处于某一低位的持续期限会多长,30年中利率会一直保持低位吗?

 

用标准差来描述的缺点是:

在一个有明显偏斜的分布的两边,散布情况就并不一样,如果你只用一个数字,比如标准差,就没有办法恰当地描述离度。而五数综合里有两个四分位数以及最大最小数,所以更适合来描述形状。在大多数情况下,只有分布形状大致对称的样本中,才适合使用平均数和标准差。

 

 

5.正态分布(高斯分布)

密度曲线的中位数→是等面积均等点,也就是把曲线底下面积分成两半的那一点。

密度曲线上的平均数→是重量平衡点,也就是如果曲线是用实体材料做成的话,就会在那一点平衡。

05 David S.Moore_03.正态分布标准差/标准计分/百分位数 - m_v_priest - 踏雪吟歌

正态曲线都是对称、单峰及钟形,尾部下降得很快,所以我们应该不会看到异常值。因为正态分布是对称的,所以平均数和中位数都落在曲线的中间位置,这也是尖峰点所在。

 

正态曲线还有一个特点:我们可以用目测方式在曲线上找到它的标准差,而对大多数其他的密度曲线而言,却无法这样做。具体做法是这样:想象你从山顶开始滑雪,山的形状和正态曲线一样。起先当你从山顶开始下滑时,往下的角度非常陡。而随着你越往下,斜坡便开始缓和起来,坡度变得越来越平。这个发生“曲率”改变的地方,就是在平均数的两侧,各距平均数一个标准差位置的地方。标准差是指从平均数到其左右两侧的曲率转变的点的距离。

05 David S.Moore_03.正态分布标准差/标准计分/百分位数 - m_v_priest - 踏雪吟歌

所以,正态曲线有个特点:只要知道了平均数及标准差,整个曲线就完全确定了。平均数把曲线的中心定下来,而标准差决定了曲线的形状。变动正态曲线的平均数并不会改变曲线的形状,只会改变曲线在x轴上的位置。标准差较小的分布,散布的范围比较小,尖峰也比较陡。

 

正态分布的68-95-99.7规则:

在任何正态分布当中,大约有:

68%的观测值,落在距离平均数一个标准差的范围内。

95%的观测值,落在距离平均数两个标准差的范围内。

99.7%的观测值,落在距离平均数三个标准差的范围内。

05 David S.Moore_03.正态分布标准差/标准计分/百分位数 - m_v_priest - 踏雪吟歌

 

18-24岁女性的身高,约是平均数为65英寸高、标准差在2.5英寸范围的正态分布。运用68-95-99.7规则,正态曲线的图就是:

05 David S.Moore_03.正态分布标准差/标准计分/百分位数 - m_v_priest - 踏雪吟歌

任何正态分布都有一半的观测值在平均数之上,所以年轻女性中有一半身高高于65英寸。任何正态分布中的68%的观测值,会在距离平均数一个标准差的范围内,而这68%中的一半即34%的人,会在平均数65英寸之上,所以有34%的女性身高在65-67.5英寸之间。

任何正态分布的中间95%的值,在距平均数两个标准差范围内,本例一个标准差的值是2.5英寸,两个标准差的值就是5英寸。所以女性身高的中间95%是在60英寸=65-5)和70英寸=65+5)之间。

 

人的智商高低的分布,是不是遵循正态分布的钟形曲线呢?IQ测验的分数的确大致符合正态分布,但是那是因为测验分数是根据答题者回答计算出来的,而计算方式本来就是以正态分布为目标设计的。还有一个更本质的问题是:人的智慧能被IQ测验直接度量吗?如果不能,是否符合正态分布就很值得怀疑。

 

 

6.百分位数

珍妮在sat大学入学测验的语言部分考了600分,这个成绩算不算好?就得要看在所有分数的分布中,600分居于什么位置而定。Sat测验经过规划,分数大致遵循平均数为500、标准差为100的正态分布。珍妮的600分比平均数高上一个标准差,正态分布图是:

05 David S.Moore_03.正态分布标准差/标准计分/百分位数 - m_v_priest - 踏雪吟歌

有一半的考生低于平均成绩500分,另有34%的人成绩在500-600分之间,所以珍妮在全部参考人员的成绩排名中,比50%+34%=84%的人考的要好。她600分的成绩,是“第84百分位数(percentile)”,这是“比84%的考生考得好”的统计说法。

 

我们把观测值距离平均数几个标准差,叫做标准计分(standard score)。

任何观测值的标准计分=(观测值-平均数)/标准差。

标准计分为1的意思就是说:所对应的观测值,在平均数之上一个标准差的位置。观测值的标准计分为-2,就表示该观测值在平均数之下两个标准差的地方。标准计分可以用来比较不同分布中的值。但是要注意,分布必须至少是大致对称的,标准计分才适用。

珍妮的朋友杰克ACT语言部分得了21分,ACT是正态分布的,平均数为18,标准差为6。假设这两种测验的考评标准差不多,谁的分数比较高?

珍妮的标准计分是(600-500)/100=1.0→也就是比平均数多1个标准差的位置上。

杰克的标准计分是(21-18)/6=0.5→也就是比平均数多0.5个标准差的位置上。

可以看出,珍妮分数在标准差的位置比杰克高了0.5个位置,所以珍妮的表现更好。

 

对正态分布来说,标准计分可以直接转换成百分位数,而其他分布就没法这样了。

c百分位数(the cth percentile)是一个值,指的是:小于第c百分位数的观测值在全部观测值中所占的百分比为c,而其余的观测值则都比第c百分位数大。学生要在SAT中考多高的分数,才能跻身前20%名次呢?这个分数必须至少等于第80百分位数。

05 David S.Moore_03.正态分布标准差/标准计分/百分位数 - m_v_priest - 踏雪吟歌

正态分布中的每个标准计分,都可以转换成特定的百分位数,而不论原来的正态分布的平均数和标准差是多少。所得的百分位数都是一样的。

通过查找百分位数与标准计分对应表,我们得到:标准计分0.8对应78.81百分位数,标准计分0.9对应81.59百分位数。表里面离80最接近的百分位数是78.71。我们取标准计分0.8大约等于第80百分位数。因为标准计分=(观测值-平均数)/标准差,所以,观测值=(标准计分*标准差)+平均数=0.8*100+500=580。考到580分以上(含580分),就会在最高20%范围内了(确切的说,这些分数属于最高的21.19%,因为580分事实上是第78.81百分位数)。

 

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多