Maths 01_ 方差(平方),标准差(方差开方),平均差(绝对值)
1.加权平均数 某市三个郊县的人数及平均耕地面积是: 郊县-人数(万)-人均耕地面积/公顷 A-15万-0.15 B-7万 -0.21 C-10万-0.18 那么这个市郊县的人均耕地面积是多少? 由于三个县的人数不同,各郊县的人均耕地面积对这个市的人均耕地面积影响不同,因此这个市郊县的人均耕地面积,不可能是三个郊县人均耕地面积的算术平均数(=(0.15+0.21+0.18)/3),而应该是: (0.15*15+0.21*7+0.18*10)/(15+7+10)=0.17公顷 这就是加权平均数(weighted average)。三个郊县的人数15万、7万、10万分别是三个数据的权(weight)。
若n个数x1,x2,…,xn的权分别是w1,w2,…wn,则: (X1*w1+x2*w2+…+xn*wn)/(w1+w2+…+wn) 叫做这n个数的加权平均数。数据的权能够反映数据的相对“重要程度”。
你的公司想招聘一名英语翻译,对甲乙两人进行了听说读写的英文水平测试,成绩如下 应试者-听-说-读-写 甲 85-83-78-75 乙 73-80-85-82 如果这家公司想要的是口语强的人,听说读写成绩分别按3:3:2:2的比确定,则应该录取谁?如果想招笔译能力强的呢?听说读写成绩分别按2:2:3:3的比确定,该录取谁? →口语强的权重: 甲的平均成绩=(85*3+83*3+78*2+75*2)/(3+3+2+2)=81分 乙的平均成绩=(73*3+80*3+85*2+82*2)/(3+3+2+2)=79.3分 所以应该录取甲。 →笔译强的权重: 甲的平均成绩=(85*2+83*2+78*3+75*3)/(2+2+3+3)=79.5分 乙的平均成绩=(73*2+80*2+85*3+82*3)/(2+2+3+3)=80.7分 所以应该录取乙。
你参加一项比赛,分数依据三个方面得出:内容、表现、效果,各项成绩均按百分制,综合成绩依据内容占50%,表现占40%,效果占10%的比例得出,你和对手的分数为:
则,对手的总分是=(85*50%+95*40%+95*10%)/(50%+40%+10%)=42.5+38+9.5=90分 你的对手的总分是=(95*50%+85*40%+95*10%)/(50%+40%+10%)=47.5+34+9.5=91 你获胜。
平均数的符号为x上面一个横杠,但电脑打不出,以后就用[x]这个符号来代替。 统计中,在求n个数字的算术平均数时,如果x1出现f1次,x2出现f2次,…xk出现fk次(f1+f2+…+fk=n),那么这n个数的算术平均数[x]=(x1f1+x2f2+…xkfk)/n 叫做x1、x2、…xk这k个数的加权平均数,其中f1、f2,…,fk分别叫做x1,x2,…xk的权。
2.中位数和众数 中位数:将一组数据按照由小到大(或由大到小)的顺序排列,如果数据的个数是奇数,那么处在中间位置的那个数字就是这组数据的中位数。而如果这组数据有偶数个数字,那么处在中间位置的那两个数的平均值,就是这组数据的中位数。 124,129,136,140,145,149这六个数,中位数是多少呢?因为是偶数个数据,中位数就是中间两个数的平均值=(136+140)/2=138 中位数是一个位置代表值,小于和大于它的数据各占一半。
众数:一组数据中出现次数最多的那个数,就是这组数据的众数。如果一组数据中有两个数据出现的频率一样多,且都是最大的数,那么这两个数都是这组数据的众数。 你的店销售女鞋30双,各尺码的销量如下:
可以看出,23.5cm款式的鞋销量最大,是众数。可以多进货此款型号的女鞋。
你是商场经理,对手下30个营业员的当月销量进行统计:
可以看出,达到15万的人数最多,是5人,这就是众数。 把所有人的销售额一字排开,处在中间的销售额(即中位数)是多少呢?因为一共有30个销售员,中位数就是第15和16个位置上人他们的销售额的平均数,也就=(18万+18万)/2=18万。有一半的人(15人)的销售额不足18万,有一半的人(15人)的成绩超过(或等于)18万。 所有人的月平均销售额=(13*1+14*1+15*5+…+32*2)/(1+1+5+4+…2)=609/30=20.3万。这就是加权平均数。
相比较于平均数,众数不易受极端值的影响,中位数也不易受极端值的影响,所以在统计中国百姓的收入水平时,不能用人均收入来计算,而要用众数、中位数等来看。
3.极差(range)、方差 一组数据中的最大数据与最小数据的差,就叫做这组数据的极差。如一个公司中人的最高收入与最低收入的差。极差反映的是数据变化的范围,但它受极端值的影响较大。
除了用极差来反映数据的波动范围外,统计中还通过考察一组数据与它的平均数之间的差别大小,来反映这组数据的波动情况。
设有n个数据x1,x2,…,xn,各数据与它们平均数[x]的差的平方,分别是(x1-[x])^2,(x2-[x])^2,…,(xn-[x])^2。我们用它们的平均数,即用: s^2=[ (x1-[x])^2 + (x2-[x])^2 + … + (xn-[x])^2]/n
来衡量这组数据波动的大小,s^2就是这组数据的方差。
由方差公式
可以得出方差的简化公式:
当数据分布比较分散时(即数据分布在离平均数越远的范围),各个数据与平均数的差的平方和就越大(为什么要数据减去平均数后,再平方一下呢?因为再平方一下就能使数据与平均数之间的距离更激凸,更能看得明显,就像ps中加强画面的颜色对比度一样),方差也越大。而当数据分布比较集中时,方差就小。 所以,方差越大,数据的波动就越大;方差越小,表明数据的波动就越小。
你有两个芭蕾舞剧团(各8人),演员身高cm分别是:
哪一个芭蕾舞团演员的身高更整齐呢?我们就用方差来计算看 首先,两个剧团演员的平均身高要知道: [x]甲=165,[x]乙=166 然后,方差公式: s^2甲=[(163-165) ^2+(164-165) ^2+…+(167-165) ^2]/8=1.5 s^2乙=[(163-166) ^2+(165-166) ^2+…+(168-166) ^2]/8=2.5 甲团的方差比乙团要小,所以甲团的演员身高更整齐。
你对甲乙两个品种的玉米,各用10块试验田进行试验,产量数据如下:
哪个品种的产量和产量稳定性更好呢?我们先看它们各自的平均产量是多少: [x]甲=7.54,[x]乙=7.52。说明甲乙两个品种的平均产量相差不大。那么稳定性哪个更好呢?用方差来算: s^2甲=[(7.65-7.54) ^2+(7.5-7.54) ^2+…+(7.62-7.54) ^2]/10=0.011 s^2乙=[(7.55-7.52) ^2+(7.56-7.52) ^2+…+(7.49-7.52) ^2]/10=0.00198 可见,乙品种的方差(波动)更小,乙玉米的产量更稳定。
Excel中的方差函数有两个: = VAR(A1:D4)。是估算基于给定样本的方差。 =VARP(A1:D4)。是计算基于给定样本总体的方差。 VAR代表样本的一部分,而VARP则代表样本总体。VAR假设其参数是样本总体中的样本,如果数据为样本总体,则应使用函数VARP 来计算方差。比如一台机器一共生产了100件产品,如果取十个做试验就用VAR,如果全取100件做试验就用VARP。
除了用极差和方差来衡量数据的波动情况外,统计中还常用平均差和标准差来衡量数据波动。
4.平均差、标准差: 平均差(用A.D.或M.D.表示):就是一组数据与其平均数的差的绝对值的平均数。平均差是一种平均离差,离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须讲离差取绝对数来消除正负号。 =[|x1-[x]| + |x2-[x]| +…+|xn-[x]|] /n
先数据减去平均数的差,把它取绝对值,再全加起来求和,再平均数。 平均差和方差的区别,仅仅在于求和平均前,方差是取二次方,平均差取绝对值。 →方差:s^2=[ (x1-[x])^2 + (x2-[x])^2 + … + (xn-[x])^2]/n →平均差:=[|x1-[x]| + |x2-[x]| +…+|xn-[x]|] /n
标准差(用σ表示,念作sigma,大写是Σ):标准差是方差的算术平方根,即:s=
标准差广泛运用在股票以及共同基金投资风险的衡量上,根据基金净值于一段时间内波动的情况计算。标准差愈大,表示净值的涨跌较剧烈,风险程度也较大。
|
|