Maths 01_ 方差（平方），标准差（方差开方），平均差（绝对值）

集思见闻录 2015-09-18

展开全文

Maths 01_ 方差（平方），标准差（方差开方），平均差（绝对值）

1．加权平均数

某市三个郊县的人数及平均耕地面积是：

郊县-人数（万）-人均耕地面积/公顷

A-15万-0.15

B-7万 -0.21

C-10万-0.18

那么这个市郊县的人均耕地面积是多少？

由于三个县的人数不同，各郊县的人均耕地面积对这个市的人均耕地面积影响不同，因此这个市郊县的人均耕地面积，不可能是三个郊县人均耕地面积的算术平均数（=(0.15+0.21+0.18)/3），而应该是：

（0.15*15+0.21*7+0.18*10）/（15+7+10）=0.17公顷

这就是加权平均数（weighted average）。三个郊县的人数15万、7万、10万分别是三个数据的权（weight）。

若n个数x1，x2，…，xn的权分别是w1，w2，…wn，则：

（X1*w1+x2*w2+…+xn*wn）/（w1+w2+…+wn）

叫做这n个数的加权平均数。数据的权能够反映数据的相对“重要程度”。

你的公司想招聘一名英语翻译，对甲乙两人进行了听说读写的英文水平测试，成绩如下

应试者-听-说-读-写

甲 85-83-78-75

乙 73-80-85-82

如果这家公司想要的是口语强的人，听说读写成绩分别按3：3：2：2的比确定，则应该录取谁？如果想招笔译能力强的呢？听说读写成绩分别按2：2：3：3的比确定，该录取谁？

→口语强的权重：

甲的平均成绩=（85*3+83*3+78*2+75*2）/（3+3+2+2）=81分

乙的平均成绩=（73*3+80*3+85*2+82*2）/（3+3+2+2）=79.3分

所以应该录取甲。

→笔译强的权重：

甲的平均成绩=（85*2+83*2+78*3+75*3）/（2+2+3+3）=79.5分

乙的平均成绩=（73*2+80*2+85*3+82*3）/（2+2+3+3）=80.7分

所以应该录取乙。

你参加一项比赛，分数依据三个方面得出：内容、表现、效果，各项成绩均按百分制，综合成绩依据内容占50%，表现占40%，效果占10%的比例得出，你和对手的分数为：

选手

内容

50%

表现

40%

效果

10%

对手

你

则，对手的总分是=（85*50%+95*40%+95*10%）/（50%+40%+10%）=42.5+38+9.5=90分

你的对手的总分是=（95*50%+85*40%+95*10%）/（50%+40%+10%）=47.5+34+9.5=91

你获胜。

平均数的符号为x上面一个横杠，但电脑打不出，以后就用[x]这个符号来代替。

统计中，在求n个数字的算术平均数时，如果x1出现f1次，x2出现f2次，…xk出现fk次（f1+f2+…+fk=n），那么这n个数的算术平均数[x]=（x1f1+x2f2+…xkfk）/n

叫做x1、x2、…xk这k个数的加权平均数，其中f1、f2，…，fk分别叫做x1，x2，…xk的权。

2．中位数和众数

中位数：将一组数据按照由小到大（或由大到小）的顺序排列，如果数据的个数是奇数，那么处在中间位置的那个数字就是这组数据的中位数。而如果这组数据有偶数个数字，那么处在中间位置的那两个数的平均值，就是这组数据的中位数。

124，129，136，140，145，149这六个数，中位数是多少呢？因为是偶数个数据，中位数就是中间两个数的平均值=（136+140）/2=138

中位数是一个位置代表值，小于和大于它的数据各占一半。

众数：一组数据中出现次数最多的那个数，就是这组数据的众数。如果一组数据中有两个数据出现的频率一样多，且都是最大的数，那么这两个数都是这组数据的众数。

你的店销售女鞋30双，各尺码的销量如下：

尺码cm	22	22.5	23	23.5	24	24.5	25
销量/双	1	2	5	11	7	3	1

可以看出，23.5cm款式的鞋销量最大，是众数。可以多进货此款型号的女鞋。

你是商场经理，对手下30个营业员的当月销量进行统计：

销售额/万元	13	14	15	16	17	18	19
达到的人数	1	1	5	4	3	2	3
销售额/万元	22	23	24	26	28	30	32
达到的人数	1	1	1	2	3	1	2

可以看出，达到15万的人数最多，是5人，这就是众数。

把所有人的销售额一字排开，处在中间的销售额（即中位数）是多少呢？因为一共有30个销售员，中位数就是第15和16个位置上人他们的销售额的平均数，也就=（18万+18万）/2=18万。有一半的人（15人）的销售额不足18万，有一半的人（15人）的成绩超过（或等于）18万。

所有人的月平均销售额=（13*1+14*1+15*5+…+32*2）/（1+1+5+4+…2）=609/30=20.3万。这就是加权平均数。

相比较于平均数，众数不易受极端值的影响，中位数也不易受极端值的影响，所以在统计中国百姓的收入水平时，不能用人均收入来计算，而要用众数、中位数等来看。

3．极差（range）、方差

一组数据中的最大数据与最小数据的差，就叫做这组数据的极差。如一个公司中人的最高收入与最低收入的差。极差反映的是数据变化的范围，但它受极端值的影响较大。

除了用极差来反映数据的波动范围外，统计中还通过考察一组数据与它的平均数之间的差别大小，来反映这组数据的波动情况。

设有n个数据x1，x2，…，xn，各数据与它们平均数[x]的差的平方，分别是(x1-[x])^2，(x2-[x])^2，…，(xn-[x])^2。我们用它们的平均数，即用：

s^2=[ (x1-[x])^2 + (x2-[x])^2 + … + (xn-[x])^2]/n

来衡量这组数据波动的大小，s^2就是这组数据的方差。

由方差公式

可以得出方差的简化公式：

当数据分布比较分散时（即数据分布在离平均数越远的范围），各个数据与平均数的差的平方和就越大（为什么要数据减去平均数后，再平方一下呢？因为再平方一下就能使数据与平均数之间的距离更激凸，更能看得明显，就像ps中加强画面的颜色对比度一样），方差也越大。而当数据分布比较集中时，方差就小。

所以，方差越大，数据的波动就越大；方差越小，表明数据的波动就越小。

你有两个芭蕾舞剧团（各8人），演员身高cm分别是：

甲团	163	164	164	165	165	166	166	167
乙团	163	165	165	166	166	167	168	168

哪一个芭蕾舞团演员的身高更整齐呢？我们就用方差来计算看

首先，两个剧团演员的平均身高要知道：

[x]甲=165，[x]乙=166

然后，方差公式：

s^2甲=[(163-165) ^2+(164-165) ^2+…+(167-165) ^2]/8=1.5

s^2乙=[(163-166) ^2+(165-166) ^2+…+(168-166) ^2]/8=2.5

甲团的方差比乙团要小，所以甲团的演员身高更整齐。

你对甲乙两个品种的玉米，各用10块试验田进行试验，产量数据如下：

	各试验田的每公顷产量/吨
甲	7.65	7.5	7.62	7.59	7.65
甲	7.64	7.5	7.4	7.41	7.41
乙	7.55	7.56	7.53	7.44	7.49
乙	7.52	7.58	7.46	7.53	7.49

哪个品种的产量和产量稳定性更好呢？我们先看它们各自的平均产量是多少：

[x]甲=7.54，[x]乙=7.52。说明甲乙两个品种的平均产量相差不大。那么稳定性哪个更好呢？用方差来算：

s^2甲=[(7.65-7.54) ^2+(7.5-7.54) ^2+…+(7.62-7.54) ^2]/10=0.011

s^2乙=[(7.55-7.52) ^2+(7.56-7.52) ^2+…+(7.49-7.52) ^2]/10=0.00198

可见，乙品种的方差（波动）更小，乙玉米的产量更稳定。

Excel中的方差函数有两个：

= VAR(A1:D4)。是估算基于给定样本的方差。

=VARP(A1:D4)。是计算基于给定样本总体的方差。

VAR代表样本的一部分，而VARP则代表样本总体。VAR假设其参数是样本总体中的样本，如果数据为样本总体，则应使用函数VARP 来计算方差。比如一台机器一共生产了100件产品，如果取十个做试验就用VAR，如果全取100件做试验就用VARP。

除了用极差和方差来衡量数据的波动情况外，统计中还常用平均差和标准差来衡量数据波动。

4．平均差、标准差：

平均差（用A.D.或M.D.表示）：就是一组数据与其平均数的差的绝对值的平均数。平均差是一种平均离差，离差是总体各单位的标志值与算术平均数之差。因离差和为零，离差的平均数不能将离差和除以离差的个数求得，而必须讲离差取绝对数来消除正负号。

=[|x1-[x]| + |x2-[x]| +…+|xn-[x]|] /n

先数据减去平均数的差，把它取绝对值，再全加起来求和，再平均数。

平均差和方差的区别，仅仅在于求和平均前，方差是取二次方，平均差取绝对值。

→方差：s^2=[ (x1-[x])^2 + (x2-[x])^2 + … + (xn-[x])^2]/n

→平均差：=[|x1-[x]| + |x2-[x]| +…+|xn-[x]|] /n

标准差（用σ表示，念作sigma，大写是Σ）：标准差是方差的算术平方根，即：s=

标准差广泛运用在股票以及共同基金投资风险的衡量上，根据基金净值于一段时间内波动的情况计算。标准差愈大，表示净值的涨跌较剧烈，风险程度也较大。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：集思见闻录 > 《口袋中的经济学》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

集思见闻录

关注对话

TA的最新馆藏

[转] 星星-奶爸从分众传媒借壳宏达新材失败看圣莱达未来基本面转型质变之路
[转] 星星-奶爸浅聊宇顺电子的未来及实控人中植的资本腾挪术
[转] 星星-奶爸论产业资本的造富新模式
[转] 星星-奶爸仔细探究黑牛食品的重生之路
[转] 星星闲聊壳类资本运作的几个过程
[转] 星星-奶爸 16年三大壳阶段性解析跟踪

喜欢该文的人也喜欢更多

热门阅读换一换