分享

Maths 01_ 方差(平方),标准差(方差开方),平均差(绝对值)

 集思见闻录 2015-09-18

Maths 01_ 方差(平方),标准差(方差开方),平均差(绝对值)

 

1.加权平均数

某市三个郊县的人数及平均耕地面积是:

郊县-人数(万)-人均耕地面积/公顷

A-15-0.15

B-7 -0.21

C-10-0.18

那么这个市郊县的人均耕地面积是多少?

由于三个县的人数不同,各郊县的人均耕地面积对这个市的人均耕地面积影响不同,因此这个市郊县的人均耕地面积,不可能是三个郊县人均耕地面积的算术平均数(=(0.15+0.21+0.18)/3),而应该是:

0.15*15+0.21*7+0.18*10/15+7+10=0.17公顷

这就是加权平均数(weighted average)。三个郊县的人数15万、7万、10万分别是三个数据的权(weight)。

 

n个数x1x2,…,xn的权分别是w1w2,…wn,则:

X1*w1+x2*w2++xn*wn/w1+w2++wn

叫做这n个数的加权平均数。数据的权能够反映数据的相对“重要程度”。

 

你的公司想招聘一名英语翻译,对甲乙两人进行了听说读写的英文水平测试,成绩如下

应试者----

85-83-78-75

73-80-85-82

如果这家公司想要的是口语强的人,听说读写成绩分别按3322的比确定,则应该录取谁?如果想招笔译能力强的呢?听说读写成绩分别按2233的比确定,该录取谁?

→口语强的权重:

甲的平均成绩=85*3+83*3+78*2+75*2/3+3+2+2=81

乙的平均成绩=73*3+80*3+85*2+82*2/3+3+2+2=79.3

所以应该录取甲。

→笔译强的权重:

甲的平均成绩=85*2+83*2+78*3+75*3/2+2+3+3=79.5

乙的平均成绩=73*2+80*2+85*3+82*3/2+2+3+3=80.7

所以应该录取乙。

 

你参加一项比赛,分数依据三个方面得出:内容、表现、效果,各项成绩均按百分制,综合成绩依据内容占50%,表现占40%,效果占10%的比例得出,你和对手的分数为:

选手

内容

50%

表现

40%

效果

10%

对手

85

95

95

95

85

95

则,对手的总分是=85*50%+95*40%+95*10%/50%+40%+10%=42.5+38+9.5=90

你的对手的总分是=95*50%+85*40%+95*10%/50%+40%+10%=47.5+34+9.5=91

你获胜。

 

平均数的符号为x上面一个横杠,但电脑打不出,以后就用[x]这个符号来代替。

统计中,在求n个数字的算术平均数时,如果x1出现f1次,x2出现f2次,…xk出现fk次(f1+f2++fk=n),那么这n个数的算术平均数[x]=x1f1+x2f2+xkfk/n

叫做x1x2、…xkk个数的加权平均数,其中f1f2,…,fk分别叫做x1x2,…xk的权。

 

 

2.中位数和众数

中位数:将一组数据按照由小到大(或由大到小)的顺序排列,如果数据的个数是奇数,那么处在中间位置的那个数字就是这组数据的中位数。而如果这组数据有偶数个数字,那么处在中间位置的那两个数的平均值,就是这组数据的中位数。

124129136140145149这六个数,中位数是多少呢?因为是偶数个数据,中位数就是中间两个数的平均值=136+140/2=138

中位数是一个位置代表值,小于和大于它的数据各占一半。

 

众数:一组数据中出现次数最多的那个数,就是这组数据的众数。如果一组数据中有两个数据出现的频率一样多,且都是最大的数,那么这两个数都是这组数据的众数。

你的店销售女鞋30双,各尺码的销量如下:

尺码cm

22

22.5

23

23.5

24

24.5

25

销量/

1

2

5

11

7

3

1

可以看出,23.5cm款式的鞋销量最大,是众数。可以多进货此款型号的女鞋。

 

你是商场经理,对手下30个营业员的当月销量进行统计:

销售额/万元

13

14

15

16

17

18

19

达到的人数

1

1

5

4

3

2

3

销售额/万元

22

23

24

26

28

30

32

达到的人数

1

1

1

2

3

1

2

可以看出,达到15万的人数最多,是5人,这就是众数。

把所有人的销售额一字排开,处在中间的销售额(即中位数)是多少呢?因为一共有30个销售员,中位数就是第1516个位置上人他们的销售额的平均数,也就=18+18万)/2=18万。有一半的人(15人)的销售额不足18万,有一半的人(15人)的成绩超过(或等于)18万。

所有人的月平均销售额=13*1+14*1+15*5++32*2/1+1+5+4+2=609/30=20.3万。这就是加权平均数。

 

相比较于平均数,众数不易受极端值的影响,中位数也不易受极端值的影响,所以在统计中国百姓的收入水平时,不能用人均收入来计算,而要用众数、中位数等来看。

 

 

3.极差(range)、方差

一组数据中的最大数据与最小数据的差,就叫做这组数据的极差。如一个公司中人的最高收入与最低收入的差。极差反映的是数据变化的范围,但它受极端值的影响较大。

 

除了用极差来反映数据的波动范围外,统计中还通过考察一组数据与它的平均数之间的差别大小,来反映这组数据的波动情况。

 

设有n个数据x1x2,…,xn,各数据与它们平均数[x]的差的平方,分别是(x1-[x])^2(x2-[x])^2,…,(xn-[x])^2。我们用它们的平均数,即用:

s^2=[ (x1-[x])^2 + (x2-[x])^2 + + (xn-[x])^2]/n

Maths 01_ 方差(平方),标准差(方差开方),平均差(绝对值) - m_v_priest - 地平线上的星光

来衡量这组数据波动的大小,s^2就是这组数据的方差。

 

由方差公式

Maths 01_ 方差(平方),标准差(方差开方),平均差(绝对值) - m_v_priest - 地平线上的星光

可以得出方差的简化公式:

Maths 01_ 方差(平方),标准差(方差开方),平均差(绝对值) - m_v_priest - 地平线上的星光

 

当数据分布比较分散时(即数据分布在离平均数越远的范围),各个数据与平均数的差的平方和就越大(为什么要数据减去平均数后,再平方一下呢?因为再平方一下就能使数据与平均数之间的距离更激凸,更能看得明显,就像ps中加强画面的颜色对比度一样),方差也越大。而当数据分布比较集中时,方差就小。

所以,方差越大,数据的波动就越大;方差越小,表明数据的波动就越小。

 

你有两个芭蕾舞剧团(各8人),演员身高cm分别是:

甲团

163

164

164

165

165

166

166

167

乙团

163

165

165

166

166

167

168

168

哪一个芭蕾舞团演员的身高更整齐呢?我们就用方差来计算看

首先,两个剧团演员的平均身高要知道:

[x]=165[x]=166

然后,方差公式:

s^2=[(163-165) ^2+(164-165) ^2++(167-165) ^2]/8=1.5

s^2=[(163-166) ^2+(165-166) ^2++(168-166) ^2]/8=2.5

甲团的方差比乙团要小,所以甲团的演员身高更整齐。

 

你对甲乙两个品种的玉米,各用10块试验田进行试验,产量数据如下:

 

各试验田的每公顷产量/

7.65

7.5

7.62

7.59

7.65

7.64

7.5

7.4

7.41

7.41

7.55

7.56

7.53

7.44

7.49

7.52

7.58

7.46

7.53

7.49

哪个品种的产量和产量稳定性更好呢?我们先看它们各自的平均产量是多少:

[x]=7.54[x]=7.52。说明甲乙两个品种的平均产量相差不大。那么稳定性哪个更好呢?用方差来算:

s^2=[(7.65-7.54) ^2+(7.5-7.54) ^2++(7.62-7.54) ^2]/10=0.011

s^2=[(7.55-7.52) ^2+(7.56-7.52) ^2++(7.49-7.52) ^2]/10=0.00198

可见,乙品种的方差(波动)更小,乙玉米的产量更稳定。

 

Excel中的方差函数有两个:

= VAR(A1:D4)。是估算基于给定样本的方差。

=VARP(A1:D4)。是计算基于给定样本总体的方差。

VAR代表样本的一部分,而VARP则代表样本总体。VAR假设其参数是样本总体中的样本,如果数据为样本总体,则应使用函数VARP 来计算方差。比如一台机器一共生产了100件产品,如果取十个做试验就用VAR,如果全取100件做试验就用VARP

 

除了用极差和方差来衡量数据的波动情况外,统计中还常用平均差和标准差来衡量数据波动。

 

 

4.平均差、标准差:

平均差(用A.D.M.D.表示):就是一组数据与其平均数的差的绝对值的平均数。平均差是一种平均离差,离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须讲离差取绝对数来消除正负号。

=[|x1-[x]| + |x2-[x]| ++|xn-[x]|] /n

Maths 01_ 方差(平方),标准差(方差开方),平均差(绝对值) - m_v_priest - 地平线上的星光

先数据减去平均数的差,把它取绝对值,再全加起来求和,再平均数。

平均差和方差的区别,仅仅在于求和平均前,方差是取二次方,平均差取绝对值。

→方差:s^2=[ (x1-[x])^2 + (x2-[x])^2 + + (xn-[x])^2]/n

→平均差:=[|x1-[x]| + |x2-[x]| ++|xn-[x]|] /n

 

标准差(用σ表示,念作sigma,大写是Σ):标准差是方差的算术平方根,即:s=

Maths 01_ 方差(平方),标准差(方差开方),平均差(绝对值) - m_v_priest - 地平线上的星光

标准差广泛运用在股票以及共同基金投资风险的衡量上,根据基金净值于一段时间内波动的情况计算。标准差愈大,表示净值的涨跌较剧烈,风险程度也较大。

 

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多