朱正才：英语能力等级量表描述语量表化的可行性方案探讨

昵称21189171 2017-06-12

展开全文

作者：朱正才，上海交通大学教授，博士生导师。

原文刊载于《中国考试》2015年第4期。

摘要：本文在参照国内外语言量表研制经验基础上，结合我国的实际情况，提出中国英语能力等级量表描述语量表化的一个可行方案。对如何抽取学生语言行为样本、收集描述语和学生语言行为表现的匹配数据、设计带锚题的描述语调查问卷等提出解决方法，以期为国家外语能力测评体系建设提供智力支持。

关键词：外语能力测评体系；英语能力等级量表；描述语量表化

引言

　　英语能力等级量表描述语量表化是英语能力等级量表研制的关键环节，直接关系到量表的科学性和可操作性。本文在主要参照《欧洲语言共同参考框架：学习、教学、评估》（ CEFR）等世界著名语言能力量表研制和国内外众多语言能力标准制定经验的基础上，结合我国的实际情况，尝试对中国英语能力等级量表描述语的量表化提出一整套解决方案，以期为国家外语能力测评体系建设提供智力支持。

２

描述语的分类和能力等级确定

　　描述语量表化的基本程序是：第一步，描述语的撰写者、收集者或者改写者在讨论的基础上，凭经验确定描述语的分类和能力等级；第二步，对描述语广泛征集各方意见，进行问卷调查和调查数据的分析；第三步，综合调查数据的分析结果以及专家意见，最终确定每条描述语适合的类别以及能力等级。

2.1　抽取有代表性的学生语言行为样本

　　心理学的“能力连续统”（Continuum）假设认为，人的任何一种心理特质（包括语言能力），从总体上看，其分布都是连续的，从极端的无能到完美的熟练，呈现一种正态分布形态。中国英语学习者的英语能力也应该符合这个假设：从低端的、很有限的英语能力，到高端的专业翻译能力，中间是连续的正态分布。

　　描述语量表化的第一步需要有一个足够大的、有代表性的学生语言行为样本。如果能从中国英语学习者（或使用者）总体中抽取一个很大的样本，并且使用科学的抽样方法，那么，这个样本的代表性就会很高。这样，就有可能通过这个样本对中国英语学习者的英语能力表现进行全面而细致的描述验证。

　　首先，中国英语能力等级量表的适用对象主要是中国教育系统的英语学习者，故可以在中国各级各类学校中“分层随机”地抽取学生样本，其他英语教育系统和英语自学群体则只要抽取少量学生样本作为补充数据。不同层级的学生组成比例要符合两个原则：第一，在校学生数多的层级相应地要抽取更多的样本；第二，社会迫切需要描述其英语能力的学生层级也要抽取更多的样本，因为针对这部分群体相应的描述语也会更多。

　　如何确定合适的样本大小呢？这主要看项目的真实需要和可行性，两个方面要做一个平衡。假设需要数据验证的量表数目有100个,每个量表9个等级, 那么，将形成900个交叉描述语网格。如果每个网格最后平均需要2条描述语（这里参考了CEFR的经验，中国英语能力等级量表可以更多），则共需要1800条描述语。再假设数据验证过程要淘汰大约30%的描述语，那么，最终应该有2 500条左右描述语需要收集调查数据。接下来，将50条描述语组

成一份问卷（暂不考虑锚题），共产生50 份问卷。根据IRT多级评分模型，题目难度参数估计要求的一个比较低的样本容量是100人，按照这个最低要求每份问卷要调查100人，则至少需要5000名学生。这就是样本量的一个下限，实际执行时只能多不能少。

　　在抽取学生时要按照班级抽，好、中、差兼顾，比如一个市只抽3所学校，一定要好、中、差各一所；抽2所学校时，好、差各一所；抽一所学校时，抽中等的。在抽取班级时，同时要考虑英语任课教师，必须是连续2年以上负责该班教学的有责任心的教师，因为填写调查问卷的是教师。在抽取学生时，建议参考CEFR中North的做法，要求教师先将自己“熟悉的学生”（也可能来自不同班级）按平时英语成绩和课堂表现从高到低排序，然后再从中抽取10~20人（其中：差生1~2名，中下2~3名，中等3~4名，中上3~4名，最好学生2~3名）。不过，North发现这样做，得到的学生样本代表性也不是很好，因为不完全随机。但是，如果不做这样要求，教师就倾向于只抽好学生，样本代表性会更差。

2.2　收集描述语和学生语言行为表现的匹配数据

　　有了学生语言行为样本，接下来要做的是将描述语和语言行为“匹配”（Matching）在一起，也就是收集描述语和语言行为的匹配数据。目前，国际上主要有三种做法：教师评判法、学生自评法和专家评判法。

　　（1）教师评判法：就是由最了解学生的任课教师来评学生。教师了解所教学生的英语能力行为表现，能够比较准确地把描述语和每个学生的英语能力匹配起来。笔者认为，中国英语能力等级量表应该主要采用这一方法收集数据。

　　（2）学生自评法：由学生自己评自己。这一方法存在的问题是：第一，对于小学生，他们还没有“自我感知能力”，而且还不一定看得懂描述语；第二，学生撒谎，不会的也说会。因此学生自评数据的可靠性有问题，笔者建议中国英语能力等级量表可少量收集自评数据作为效度研究的一个补充，不能作为主要证据。

　　（3）专家评判法：用文档、录音、录像等收集学生的语言行为表现（包括课堂表现、试卷、竞赛、答辩、演说等），专家通过观看这些资料完成描述语的匹配。这一方法的优点是：第一，专家有专业素养，评判数据的可靠性高；第二，资料可以复制，允许多人反复评判，能显著提高描述语匹配数据的可靠性。但专家评判法的缺点也是明显的，收集学生的英语能力行为样本费力费钱，无法实现大样本的数据收集。因此，笔者建议，中国英语能力等级量表可以少量收集这类数据，作为大规模调查数据校验用。

2.3　设计带锚题的描述语调查问卷

2.3.1　科学与道德——量表效度研究的新视角

　　设计“描述语调查问卷”是描述语量表化的又一个关键环节。如何将全部描述语科学而合理地分配到不同的调查问卷中？先来看North在瑞士项目1994年调查中的做法。North先将能力等级和英语学习者群体进行了大致的关联，见表1。针对每个不同层次学生所用的问卷，其所含的描述语是最适合其“目标学生群体”的，在组卷时，要依据给描述语预设的三方面信息来分配它们，即描述语的临时等级、描述语适合的目标群体以及描述语的难度。North把全部280条描述语分成7份问卷，每份问卷含50条描述语，含10道锚题。分配方案：口语任务24 条，理解4 条，交互策略7 条，口语质量12条，写作任务3条。7份问卷中，W1和W2是平行问卷，T1和T2是平行问卷，含平行锚题。不同等级问卷之间交叉重叠少部分题目，即含垂直锚题，其中B与W1交叉，W2与T1交叉，T2与I交叉，I与E交叉。

　　中国英语能力等级量表的问卷调查可基于上述原理，设计50份问卷，每份问卷50~60条描述语，含10道左右的锚题，可以分配为：听力10条，口语8条，阅读理解10条，写作8条，翻译4条，语言知识运用5条，语用知识运用5条，可行方案见表2。其中同一个层级的是平行问卷，含一组平行锚题，如A1-1和A1-2是平行问卷；相邻层级之间是垂直问卷，含一组垂直锚题，如A1-1和A2-1交叉，A2-2和A3-1交叉，A3-2和B1-1交叉，B1-2和B2-1交叉，B2-2和B3-1交叉，B3-2和C1-1交叉，C1-2和C2-1交叉，C2-2和C3-1交叉。

2.3.2　科学与道德——量表效度研究的新视角

　　描述语调查问卷可以通过互联网发送给教师，教师在网上填写。为保证调查数据的数量要求，同时保证被评学生有良好的代表性，问卷分发时应满足以下要求：（1）每份问卷只评测对应的同一层级的学生；（2）每份问卷至少评100名学生。如果每位教师评20名学生，那么每份问卷就要至少被随机地分发给5位不同的教师；（3）每位教师至少要评完一份问卷（即用一份试卷分别评20名左右的学生）。如果时间精力允许的话，一位教师也可以评多份平行问卷。

　　此外，按照听、说、读、写、译、语言知识运用等语言能力分类的描述语应在同一个学生样本上完成问卷调查。这样，各类描述语的难度参数在经过等值后，其量表零点在同一个位置上，即在被调查学生样本的能力均值上。这无疑会给后面的量表等级划分带来极大的方便。否则，各类描述语得到的是相互独立的量表体系，需要有一个把难度参数标定（Calibrating）到一个新的共同量表上的环节，由于误差累积效应，会严重影响描述语难度参数的估计精度。

2.3.3　锚题组设计

　　“锚题”可以从描述语库内各位专家公认为“好”的描述语中选出。平行等值的“锚题组”含全卷15%~20%的题量，无论是结构上，还是题目质量上，都是所在问卷的代表性题目。

　　垂直等值的“锚题组”由高一级问卷中较易的题和低一级问卷中较难的题组拼起来，难度在两个等级中间，结构上对上下两个层级问卷都要有一定的代表性。

2.4　教师评判松紧度问题的解决方法

　　描述语与学生的语言行为表现的匹配程度通常用“5点里克特（Likert）量表”评分，用0表示这条描述语对某个学生的语言行为表现是不适合的，学生肯定达不到描述语所描述的水平；用4表示学生的语言表现水平肯定达到或超过了描述语所描述的水平；用2表示描述语相对学生语言行为来说，是中等程度的符合；1介于0与2之间，3介于2与4之间。

　　通常教师在对学生进行评定时，对于描述语与学生符合程度的判断，在“松紧度”（Severity）的把握上会有很大差异。每个人所评分数，会围绕分数量表的中心点（即量表的参照点或者称零点）上下移动。为了不让这个零点在评分时任意“飘移”（Floating），有必要对全体评分员进行培训，以统一评分的松紧度。

　　North的瑞士项目采取“看录像打分”的培训程序，值得借鉴。瑞士项目1994年做的主要是“口语及互动量表”（含写作），因此North的录像中录的是学生的口语表现，一个考官、两个水平相当的学生，共11个录像，不同录像里面的学生水平都不一样。North为每个录像编了一组描述语（5~7条），不同等级录像的描述语还有交叉的锚题（比如2题），这样全部录像里的描述语难度参数后续就可以直接等值。North要求参加描述语问卷调查的教师先浏览一遍描述语，再看录像，同时试着给每条描述语评一个临时分数，看完录像后，反复核对全部评分情况，看看是否都合适，个别学生成绩是否要修改。最后，确认自己的评分。

　　在此程序基础上，North提出两种解决教师评分松紧度的方法：①行为观察量表法（Behavior Observation Scales，BOS）：根据录像培训所得数据可以估计每个教师评分的松紧度参数，教师无需改变自己的评分习惯就可以开始评分。后续在估计每条描述语的难度参数时，计算模型会根据评分教师的松紧度对描述语的难度参数进行相应调整。②行为描述量表法（Behavior Summary Scales，BSS）：经过培训后的教师，把自己评分的松紧度主动调整到一个给定的“统一标准”上。显然，这里需要制定一个统一的评分标准。

　　很多研究都发现，BSS量表法行不通。因为师经过培训后，评分松紧度有的改了，有的改不了，更多的评分员可能是第一天改了，第二天、第三天又回到原来的习惯。因此，对于中国英语能力等级量表的评分松紧度问题，推荐用BOS量表法解决。

　　North的1994年瑞士项目只包括口语与互动，他大概认为作文与口语评分具有共通性，因此在培训评分松紧度时，只用了口语录像资料。但如果是听力和阅读描述语评分，松紧度问题又如何解决呢？是否教师的评分松紧度在口语录像培训上统一后，就可以自然地迁移到听力、阅读评分上去，还是松紧度本来就和量表类别关系不大？此外，评分员评分时常有“趋中”现象，这是否也需要有一个事后的统一调整呢？这些问题都有待进一步研究。

３

数据分析和描述语的最后审核

　　调查问卷的数据分析在两个层面上进行：一个是数据的集中分析层面，一个是数据的分组分析层面。集中分析要解决的问题有：首先，用模型分析的方法剔除全部数据中不合适的描述语和不合适的学生数据；然后，分析描述语的分类在各组之间是否有不合理的情况，全部描述语的难度估计和等值，全部学生的能力水平参数估计和等值，描述语的等级划分和量表的等级划分等。分组分析要解决的问题有：描述语的分类在组内是否有不合理的情况，描述语的难度估计及排序，描述语的等级划分，其他与量表构念效度、描述语效度有关的诸多问题。

　　描述语分类验证的数据分析方法主要有：因子分析法、聚类分析法、卡方分析法、IRT模型分析等；描述语分级验证的数据分析方法主要有：Facets分析、聚类分析法等，读者可参考相关专业文献。

　　综合全部数据分析结果，再加上专家的集体审核意见，不合适的描述语将会被大量删除，初步估计删除比例将在30%左右。有些描述语，可能需稍作修改便可留用。保留下来的描述语应该能力目标清晰、语言简洁易懂、语义结构符合“能做描述”规范，而且难度参数在整个能力量表上都有分布，而不是挤在某几个等级里面。Alderson和North都曾对CEFR的编制工作（包括描述语的审核和分级等）做过细致的总结和评论，其中很多经验之谈，值得借鉴。