分享

标准差

 航海王魯夫 2009-05-22
第二节 标准差

  次数分布中的数据不仅有集中趋势,而且还有离中趋势。所谓离中趋势指的是数据具有偏离中心位置的趋势,它反映了一组数据本身的离散程度和差异性程度。标准差能综合反映一组数据的离散程度或个别差异程度。
  例如,甲、乙两班学生各50人,其语文平均成绩都是80分,但甲班最高成绩98分,最低42分,而乙班最高成绩86分,最低60分。初步看出,两班语文成绩是不一样的,甲班学生的语文成绩个别差异程度大、水平参差不齐;而乙班学生的语文成绩差异程度小,语文水平整齐度大些。 怎样用标准差 这个特征量数来刻画一组数据的差异程度呢?下面介绍标准差的概念及计算。

一、标准差概念与计算

1.标准差定义与计算公式

  一组数据的标准差,指的是这组数据的离差平方和除以数据个数所得商的算术平方根。若用S 代表标准差,则标准差的计算公式为:

     

  标准差的平方,称为方差,用S2表示方差。
  计算标准差时,首先要计算数据的平均数 ,接着要计算各数据与平均数之间的离差平方,即(2,最后由公式(2-5)计算标准差S
  例如,4名儿童的身高分别是110厘米,100厘米,120厘米和150厘米,若求4名儿童身高数据的标准差时,其基本步骤如下:

  ①求平均数: (厘米)

  ②求离差平方和:

)2=(110―120)2+(100―120)2+(120―120)2+(150―120)2
       =100+400+0+900=1400(平方厘米)

  ③求标准差SS= (厘米)

  这样,我们大体可认为,这4名儿童身高差异程度,从平均角度来看,约相差18.71厘米。

  2.标准差的计算中心方法

  计算标准差的方法有三种,一是按公式逐步分析计算,如上述所示;二是以列表计算的方式;三是利用计算器或计算机进行计算。下面再举一例说明采用列表方式计算标准差S
  [例7] 已知8 位同学在某图形辨认测验中的成绩数据(见表2-2),计算这组数据的标准差。
  [分析解答] 采用列表计算方式,应用公式(2-5)确定数据的标准差,详见表2-2。

表2-2  计算标准差S的示例

Xi
Xi-
( )2

结果计算

42

-10.5

110.25

(1) =

46

-6.5

42.25

46

-6.5

42.25

(2) ( )2=550

50

-2.5

6.25

50

-2.5

6.25

(3)S2=

56

3.5

12.25

62

9.5

90.25

(4)S=8.29

68

15.5

240.25

合计

420

0

550

  标准差在实际中有广泛的用途,同时对深化研究数据也具有重要的作用。如不同班级考试成绩的平均数和标准差,不同年度或不同学科测验分数的平均数和标准差,以及其他体能测试或心理测验数据的平均数和标准差,就是一些具体的应用。后续各章内容的学习,将经常用到平均数、标准差和方差这些概念。
  由于标准差计算公式结构适合于代数处理,因此,许多具有统计功能的计算器,都有计算方差和标准差的相应功能。学习者只要花少量时间学习与掌握有关计算器的使用,即可以轻松自如地处理大量数据,求取平均数和标准差。
  在利用公式(2-5)手工求标准差时,如表2-2所示,由于平均数有小数,这使计算离差平方的数据更加复杂,小数点的位数加倍增加,同时四舍五入的计算误差以及出错的可能性都有所增加。为克服这个弊病,我们可从公式(2-5)出发,通过代数演算,推导出另一个与公式(2-5)等价的新公式,即公式(2-6)。这一新公式对计算标准差来讲,不用通过计算平均数 以及离差平方和,用原始数据直接计算标准差,因而在许多情况下,具有更简便、准确的特点。其计算公式:

        

  式中: 是原始数据的平方和;实际上是平均数的平方。
  下面,举个例子来说明公式的应用。
  [例8] 7位评委对某一歌手的演唱评分结果如表2-3中第1栏所示,试确定这7位评委评分的差异程度(用标准差表示)。
  [分析解答] 如果所有评委对某一歌手的评分一致性很高,这说明大家所评的分数差异程度小,因而,用标准差来衡量的话,其值一定较小。根据表2-3第1栏中原始数据,我们采用上述公式(2-6),从原始数据出发直接计算标准差,整个计算过程如表2-3中的其他各栏目所示。

表2-3  用原始数据直接计算标准差的示例

分数Xi

     计算过程

8

64

(1)n=7,

7

49

9

81

(2) =400

6

36

5

25

(3)S2=

8

64

9

81

(4)S=

合计

52

400

 

  标准差这个特征量数对于完整、全面地认识数据分布特点是重要的,特别是遇到比较两个次数分布时,我们不仅要从集中趋势的角度而且还要从离中趋势的角度去分析比较。但上述的标准差量数并不是在任何情况下都可以直接应用,特别是下面两种情形,就不好直接使用上述具有单位的绝对意义的标准差量数。其一,两个次数分布的数据在测量单位上是不同的。例如,测量身高用“厘米”作单位,测量体重用“千克”作单位,则这两种数据分布的标准差量数不能直接比较。再如,男生的身高用“米”作单位,女生的身高用“厘米”作单位,则男女生身高数据的标准差也不能比较。其二,在一些特别场合下,尽管两组数据的测量单位相同,但两组数据的平均数相差太大,则这两组数据的标准差量数一般也不宜直接比较。例如,研究幼儿园大班小朋友的体重差异程度(用“千克”作单位)和离退休职工体重差异程度(也用“千克”作单位)。尽管所用单位相同,但由于来自这两个特殊群体的体重测量数据,在数量上存在很悬殊的差异,因而,可以想象,离退休职工的平均体重远远大于幼儿园大班小朋友的平均体重。此时若用上述的标准差量数来比较两组数据的离散程度,是不够合理的。针对上述两种情况,下面引进差异系数。

二、差异系数

  差异系数是把标准差量数和平均数量数两相对比后所形成的相对差异量数。差异系数又称为变异系数和变差系数,用符号CV 来表示。差异系数计算公式是:

              (2-7)

  式中:S 表示一组数据的标准差; 表示该组数据的平均数。
  注意到公式(2-7)中的标准差S和平均数 具有统一的测量单位,因而,差异系数是一种反映相对离散程度的系数,即相对差异量数。它消去了单位,因而,适合于不同性质数据的研究与比较。
  [例9] 某城市调查10岁男童的身高与体重的发展情况 ,得到表2-4资料。试问:10 岁男童在身体发展变化方面究竟是身高的差异程度大,还是体重的差异程度大?

表2-4  某市10岁男童身高、体重调查资料

变  量

单  位

平均数

标准差S

身高

厘米

135.1

5.5

体重

千克

28.1

3.4

  [分析解答] 本例身高数据单位是“厘米”,而体重数据的单位为“千克”,因而,这两种变量的平均数之间以及标准差之间是不能直接比较的。要判断10岁男童究竟在身高方面差异程度大,还是体重方面差异程度大,需要从相对差异量数出发进行判断。根据上述差异系数计算公式(2-7),分别计算10岁男童在身高与体重方面的差异系数:

  CV身高

  CV体重

  由于CV 体重明显大于CV 身高,因此,我们有理由认为,就10岁男童来看,体重方面的差异程度比他们在身高方面的差异程度大得多。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多