考试质量分析一般方法和要求

高中校本研究课题 2009-04-23

展开全文

考试质量分析一般方法和要求
刘逢庆(2006.2.18)
一般说来,考试实施之后,得到了可供使用的考试成绩,一次考试也就结束了.为什么考试之后还要进行质量分析呢其目的有三:第一是为了评价考试的质量;第二可以获得教学上的各种信息,用以改进教学工作;第三能够为改进命题工作提高大量信息,提高试题和试卷的编制质量.
考试质量分析有两种方法,一种是定性分析法,一种是定量分析法.这两种方法总是结合进行,互相补充的.一般地说,分析试卷和试题的质量,以定量分析为主,辅之以定性分析;分析考生解答中的具体问题,以定性分析为主,辅之以定量分析.
现在我们来介绍一些考试质量分析一般方法和要求.
一,数据整理
(一)抽样方法
抽样方法是从总体所包含的全部个体中随机地抽出一部分个体作为样本,用以估计总体情况的一种方法.要使样本有代表性,能充分反映总体的情况,必须采用随机抽样的方法.所谓随机抽样,就是从总体抽取样本时,排除人的主观因素的影响,使每个个体被抽取的机会均等.常用的抽样方法有四种.
1.简单随机抽样
最简单的随机抽样方法是用抽签法.其方法是先将总体中的所有个体编号,总体中个体的个数为N,号码便是从1编到N.对个体编号时也可以利用已有的编号,如班级中的座位号,考试时的准考证号等.再将所有编号制成号签,即写在形状,大小相同的卡片(或纸条,小球等)上,将号签放在一个暗箱里,搅拌均匀.抽签时根据样本的容量抽取,如要求抽取K个个体作为样本,则每次抽出1个号签,连续抽出K次,已经抽出的号签不再放回参加抽取.
现在较为先进的抽样方法是利用《随机数表》进行抽样.随机数表的制作,是将0,1,2,…,9十个数字,按随机的方式重复地抽出,根据抽出的顺序排列所作成的表.表中可约定二个或三个数字,乃至五个数字为一组.制作随机数表时,要保证表中每组位置上,数字出现的概率是相等的,现在统计工作者常用计算机来制作随机数表.
随机数表的选用由总体的大小而定,总体中的个体在100个以内,选用二个数字为一组的《随机数表》.使用的方法是先将总体中的所有个体编号,任选随机数表中的一组数作为起点,向右或向下顺序取数,大于编号范围的或数码重复的舍去,直至抽出符合样本容量要求的若干数码为止.
简单随机抽样,简便易行,适合于总体的个体数不多的情况.若总体的个体很多,要事先将所有个体码号,然后逐个抽取,过程较繁琐,可采用其他方法.
2.系统抽样
系统抽样是先将总体均衡地分成若干个部分,然后按事先约定的规则,从每部分抽取出1个个体,得到所需要的样本.
例如,某地区为了分析参加高中数学联合竞赛的3000名学生的考试质量情况,打算从中抽取出100名作为样本.用系统抽样的方法是:
第一步,将参加竞赛的3000名学生均衡分成100部分,每部分有3000÷100=30名学生.分段方法可先将全体学生编号,从0001至3000(可用准考证号码),按每部分30名划分,有0001—0030,0031—0060,…,2971—3000共100部分;也可将学生先均分成100部分后再对每一段从01至30编号(可用试定座位号码),编成(01,01),…,(01,30),(02,01),…,(02,30),…,(100,30).
第二步,从01一30中用简单随机抽样的方法随机抽取出一个号码,如抽到的是18,
第三步,进行抽样,如果是总体编号,则从18开始,抽取18,18+30,18+2×30,…,得到18,48,78,108,…,2988.共有100个作为样本.如果是分段编号,则每段抽取编号为18的个体,即(01,18),(02,18),…,(30,18),同样得到100个样本.
上面的例子是样本容量恰好能整除总体的个数的情况.如果是不能整除,可先从总体除去一些个体,使剩下的个体数能被样本容量整除,再进行系统抽样.从总体中剔除某些个体时要用简单随机抽样方法.比如.上述参加竞赛的学生为3012人,样本容量仍为100,这时可用简单随机抽样剔除去
12个个体,使剩下的3000个个体能被100整除,再用系统抽样的方法进行下去.
3.分层抽样
分层抽样是已知总体是由有明显差异的几个部分组成时,为了使样本更充分地反映总体情况所采用的抽样方法.它是先依据总体的差异情况将总体分成几部分,然后按各部分所占的比进行抽样.
例如,某县高中三年级有学生2800人,通过多次摸底得知数学科成绩良好的有800人,成绩中等的有1400人,成绩较差的有600人.毕业会考后要分析数学科的考试质量情况,决定抽取一个容量为280的样本,用分层抽样方法进行抽取.抽取的步骤是:
第一步,计算样本容量与总体的个体个数的比280:2800==1:10.
第二步,确定不同成绩段学生中抽取的个体数依次是800/10=80,1400/10=140,600/10=60.
第三步,分别在各个成绩段按上述个数抽样,抽取时可用简单随机抽样或系统抽样方法,将各段抽的个体合在一起,就是要抽取的样本.
分层抽样能充分利用已知信息,能使样本有较好的代表性,缩小变异程度和抽样误差,在实践中较多采用.
4.群体抽样
群体抽样是以集体为对象而不以个体为对象的抽样方法.
例如,某县有初中毕业班140个班,每班人数45～60人不等,全县共有初中毕业生7600人.初中毕业会考之后拟抽出的学生数作为样本,对数学科的考试质量进行分析.为了便于工作,决定以班为单位,采用群体抽样的方法.其步骤是:
第一步,计算抽取的班数,140×=7,即要从140个班中抽取出7个班.
第二步,复查抽样比例,7个班的学生数最少是45×7=315(人),最多是60×7=420(人).而全体毕业生按抽样为7600×=380(人),基本符合按抽样的要求.
第三步,用简单随机抽样从140个班中抽出7个班,登记这7个班每个学生本次会考数学成绩,作为统计分析原始数据.
整体抽样的方法易于组织,能节约人力物力,适用于大规模的调查研究.但样本单位在总体中分布的均匀性较差,如果结合分层抽样进行,能减少误差,缩小变异程度.
类别
特点
相互联系
适用范围
简单随机抽样
从总体中逐个抽取
总体中的个体个数较少
系统抽样
将总体均分成几部分,按事先确定的规则在各部分中抽取
在起始部分抽样时
采用简单随机抽样
总体中的个体个数较多
分层抽样
将总体分成几层
分层按比例进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的
几部分组成
群体抽样
以总体中的集体为对象进行抽取
采用简单随机抽样
节省人力物力
便于组织工作
(二)数据分布
在教育测量中,通过各种测验获得大量分数,这些杂乱无章的分数有三个问题,一是看不清它们的分布形态,二是不了解它们的特征和变化规律,三是每个分数表达的意义含混模糊.因此,需要对零乱分散的分数进行整理和分析,以便在此基础上作出解释和评价.
1.顺序排列表
顺序排列是简单的整理分数的方法.它是将所有个体的成绩,按高低顺序排列,并且列于表中,称作顺序排列表.这种方法简明清晰,一眼便能看到最高分数和最低分数,而且可以大致了解个体成绩在总体中的位置.(可通过用Excel处理)
2.频数分布表
频数分布表是一种反映数据分布情况的统计表.所谓频数是指一群数据在各个数值(或区间)上所出现的数据的个数,也称为次数.每一个频数除以数据的总个数称为频率,或称相对次数.(可通过用Excel处理)
3.频数直方图
由频数分布表可以制作频数直方图.方法是:以分数为横轴,频数为纵轴,建立直角坐标系,在横轴上标出各组分数的组中值,频数值等距标在纵轴上;然后以组中值为底边中点,组距为底边,组频数为高作出各矩形,即得频数直方图.(柱形图:可通过用Excel处理)
(三)集中趋势分析
1.算术平均数
一组数值的总和除以数据的总频数所得的商称为算术平均数,简称平均数.计算公式是: x-= .
(可通过用Excel处理)
2.标准差
一组数据中,各数离均差的平方和的算术平均数称为这组数据的方差.又叫均方差或变异数.用符号S2或σ2表示.
方差的算术平方根称为标准差.用符号S或σ表示.
标准差是反映全体考生分数之间的离散程度和差异情况.它与平均分一起使用,决定了某次考试分数分布情况.σ值越大,表示部分考生离平均分的"差距越大",也就是分数分布较广;σ值越小,则分数分布较窄或说"集中在平均分附近".计算公式是:
σ=
(可用CZ—1206科学计算器或Excel求平均数和标准差)
3.差异系数
标准差较准确地反映了一组分数的离散程度,它与原数据的单位相同,是一种绝对差异量数.在进行不同组间离散程度比较时,适用于单位相同,平均数相近的情况.如果各组数据单位不同,或虽然单位同但平均数相差甚远时,不能直接用标准差比较,这时应使用差异系数.
差异系数是一组数据的标准差与平均数的百分比,用CV表示:
CV=·100%.
例某校中考成绩语文的标准差S1=15,平均分x1— =85分(满分130分),政治标准差S2=10,平均分x2— =50(满分70分),试比较两科的差异情况.
语文:CV1= = =17.6%,
政治:CV2= = =20%.
因此,政治科分数离散程度大.
4.标准分数(z分数)
标准分数是以平均分为参照点,标准差为度量单位的分数.它具有重要理论价值和应用价值.不改变分布形态的标准分数
定义式为: z = .
其中,xi为原始分数,为参照群体的平均分,s为参照群体的标准差,z为标准分数.这种标准分数又称z分数.
例.某生高考数学成绩105分,所在省的数学平均分68.40分,标准差28.90分,求他的标准分数.
z= = 1.266.
该学生处于优秀学生行列,但如果将他置于全国高考最好的省份,如平均分92.26分,标准差24.10分,则z=0.529,仅能算中等偏上.
5.难度
难度是指试卷(题)的难易程度.一般用试卷(题)的得分率或答对率(P)表示,所以难度事实上是容易度.P值在0~1之间,数值越大,说明试卷(题)越容易.
有关考试难度水平估计一览表
最易
容易
适中题
较难
难
很难
难度
0.95
0.85
0.70
0.50
0.30
0.10
章节考试
20%
40%
30%
10%
高考
30%
30%
20%
20%
竞赛
20%
30%
30%
20%
计算公式: P= . (可通过用Excel处理)
一般情况下,测验的平均难度接近0.50时,分数趋于正态分布,否则分数分布将出现偏态.就整个测验而言,当平均难度为0.5且题目组间的相关为零的情况下,分数呈正态分布,而难度值越小,则题目越难,低分段人数必然较多.难度值越大,题目越容易,分数将大部分集中在高分区.这样,在分数的分布上,就会呈现出两种不同的偏向,前者为正偏态,后者为负偏态.
6.区分度
是试题对不同考生的知识,能力水平的鉴别程度.如果一个题目的测试结果使水平高的考生答对(得高分),而水平低的考生答错(得低分),它的区分能力就很强.题目的区分度反映了试题这种区分能力的高低.一般认为,区分度的数值达到了0.3,便可以接受;达到了0.3以上为好的题目;在0.4以上为优秀题目;低于0.3的题目,区分能力差.
1994~1995年高考数学试题区分度统计表
年份
0.3以下
0.3~0.4
0.4以上
1994
文科
14.7%
20.7%
64.4%
1994
理科
5.3%
20.7%
74%
1995
文科
13.3%
8.7%
78%
1995
理科
16.7%
37.3%
46%
可见,题目区分度的实质是用以鉴定一个题目有效性的指标,它的高低变化对测验的质量具有深刻的影响.与题目的难度相比,人们更关注题目的区分度的高低,并以此作为筛选和修改试题的主要依据.
试题的区分度的计算比较方便的方法有以下两种:
(1)得分率求差法
将受测群体按题目得分的高低排列,取高分人数的27%为一组,他们的得分率记作PH;低分人数的27%为另一组,他们的得分率记作PL,用D表示区分度,则该题的区分度为
D=PH—PL.
(2)得分求差法
将受测群体按题目得分的高低排列,取高分人数的27%为一组,低分人数的27%为另一组,用D表示区分度,用H表示高分组得分总和,用L表示低分组得分总和, 用n表示高分组(低分组)人数,XH表示该题的最高得分,XL表示该题的最低得分,则
D=.
(可通过用Excel处理)
7.信度
信度是衡量测验分数一致性或可靠性的一个指标,即用一个或一组测验对同一被试群体施测多次,所得结果的一致性的程度,以及测验分数所反映被试真实水平(即真分数)的可靠性程度.
(1)分半相关
将全卷中全部试题按题号或分数适当分半,得到两个平行的"子试卷",计算这两个子试卷考生得分的相关系数,这样求得的是半个试卷的信度,然后再用斯皮尔曼—布郎(Spearman—Brown)公式校正,得到考试的分半信度系数.一般认为分半信度系数在0.90以上比较合适.这个方法比较适合多数为选择题的试卷.
rtt =
其中, rtt分半信度系数, rab表示A,B两份试卷得分的积差相关系数.(可通过用Excel处理)
计算公式rab=
其中,x1i,x2i是第i个受测者先后两次测验所得分数,n是受测人数.
应当注意,在应用上式时,分半的两部分测验须满足在平均数,标准差,分布形态,测题间相关,内容,形式和题数都相似的假设条件.
(2)内部一致性信度
通常采用的是克伦巴赫(Cronbach)的α—系数公式,它适用于非选择题(多重记分)较多的试卷.α—系数为试卷信度的最低限,一般认为其值在0.80以上,考试的信度比较好.
克伦巴赫(Cronbach)公式: rtt = .
其中,Sii 2是每个测试题目得分的方差,St2是整份测验总分的方差.
国家教委考试中心对高考试题分析与评价时,即用分半相关与α—系数方法求出试卷信度.
近3年高考数学(理科)试卷统计数据对比
项目
1994年
1995年
1996年
平均分
83.12
88.36
82.79
标准差
25.50
24.00
25.30
难度
0.550
0.590
0.550
分半信度
0.8339
0.8506
0.8500
α—信度
0.7580
0.8867
0.8884
8.效度
效度是测验有效性或准确性的指标.由于效度分析可以针对各种要求和运用各种程序,而在特定的条件下,使用不同的分析方法可以得到不同的效度.因此,一个测验可以具有不同的效度指标.当我们讨论一个测验的效度时,只有界定了它的条件,效度才有确切的意义.
对常模参照测验来说,主要有效标关联效度,内容效度和结构效度.由于建立理论和提出假设的困难,操作步骤较为复杂,且没有单一的量化指标来描述有效程度,所以,在一般的考试质量分析中很少采用.
二,解读数据,分析学生考试情况
一般来说,数据处理后的作用有二个方面:一是进行试卷质量分析,二是进行学生考试情况分析.
试卷质量分析内容包括:命题指导思想,命题的原则和依据;检测情况,试题难度,试题区分度,试卷信度和试卷梯度等.(略……)
学生考试情况分析包括:参考人数及各科均分,得分率,标准差(即考生离散度),位次,达标率和趋势等.
举例说明:(含:读图,读表和文字说明)
例1,南通市2001届高考质量分析报告;
例2,南通市2002届高考质量分析报告;
例3,南通市2003届高考质量分析报告.