分享

对话 | 剑桥专家为你解读考试研发的两大支柱:效度与信度

 YJsyxofie3977d 2020-10-10

“人工智能赋能英语学习”在线系列讲座是2020剑桥英语节的重要主题之一,由剑桥大学英语考评部首席研究经理徐兢博士作为主讲嘉宾,为大家深度解读英语测评的基本概念和人工智能在英语测评领域中的应用。

本期文章将回顾该系列讲座的第二讲:“解密考试研发两大支柱:效度与信度”。效度与信度二词听起来十分学术,但实际与每个人的生活息息相关。无论是身高测量到心理测试乃至语言测试,测试结果准不准从根本上取决于效度和信度两大指标。效度和信度均高的语言考试才能准确地测出语言学习者的真实语言能力。

以剑桥英语为例,每年来自全球130多个国家的700万考生在2800多个考点参加剑桥英语考试,确保为每位考生提供公平、公正的测评标尺是剑桥英语肩负的首要责任。因此,在第二讲徐兢博士深入浅出为大家解读效度与信度,及其在剑桥领思考试研发中的应用。

本文包括:第二讲的讲座回放、要点总结、专家问答和知识小测。文末我们将公布上期三道小测验的答案及幸运读者名单,赶紧阅读文章看看你有做对吗?

视频回顾

错过了直播或者想要温故知新的观众们,以下是徐兢博士第二讲的传送门!同样,看完视频,记得完成文末的三道小测验。我们将随机抽选答对的幸运读者,送上Write&Improve专属福利!上期没有被选中的读者请继续加油,我们期待你的答案!

要点总结

本讲主要包括四部分:

  • 效度与信度的基本定义

  • 效度检验的多种维度

  • 社会认知理论框架 - 剑桥测评效度研究的重要参考

  • 目前关于剑桥领思考试的效度论证研究

效度和信度的基本定义

效度(Validity)作为测试学领域的基本概念,通常指测量工具或手段在测量它所宣称能够测量的事物时的精确程度 (how well a test measures what it claims to measure)。例如,语言测试旨在衡量语言学习者的真实语言水平;若一项在线语言测试对考生的计算机使用能力要求很高(例如鼠标、键盘的使用),那么对于计算机使用不熟悉的考生,这可能会限制其考场上真实语言水平的发挥,这项考试的效度就会受到质疑。而当今效度理论把这个概念进一步扩大,认为效度既包括测试本身的质量,还包括测试和测试成绩的正确解读和使用,以及测试对考生,教学,以及社会的综合影响。

信度(Reliability)指测试结果的一致性、稳定性和可重复性。对于信度高的考试,考生无论在何时、何地和面对不同的考官进行考试,多次测试得到的结果会是相同或相近的。

如果我们把测试比喻成打靶,靶心即考试想要测试的考生的真实语言能力,以下图示可直观地展示测试中的效度与信度之间的关系。

靶1      

    靶2

           靶3

靶1:低效度、高信度。每次打靶位置相近,说明该测试信度较高;但打靶位置均在外环,说明该测试效度有待提高,因为它实际所测量的能力并非是它宣称能够测量的能力。

靶2:高效度、高信度。每次打靶位置相近,并且每次均命中靶心。

靶3:低效度、低信度。每次打靶位置分散,且打靶位置均远离靶心。此类测试就很难判断它究竟测的是何种能力。

检验效度和信度的多种维度

有很多专家认为,信度也是影响效度的重要因素,会将信度纳为效度的一部分,称其为“评分效度”。由此,我们可从五个维度验证测试的效度:

  • 内容效度 (Content Validity)

  • 认知效度 (Cognitive Validity)

  • 评分效度 (Scoring Validity)

  • 标准关联效度 (Criterion-based Validity)

  • 后果效度 (Consequential Validity)

其中信度通常被分为四大类:

  • 重测信度(Test-retest reliability)

  • 复本信度/平行试卷信度(Parallel forms reliability)

  • 内部一致性信度(Internal consistency)

  • 评分者间信度(Inter-rater reliability)

社会认知框架

语言测试学科中存在多种效度验证模式,将效度的不同维度用一个整体模型囊括起来,从而方便进行整体地效度研究。著名的语言测试学者Cyril Weir于2005年的专著《语言测试与效度验证》一书中,提出了“社会认知框架 (Socio-Cognitive Framework)”,用于测试效度验证,在欧洲乃至东南亚得到了广泛应用。该框架是剑桥大学英语考评部所有测评效度研究的重要参考,徐兢博士在讲座中对其有进一步的解读。

“社会认知框架”基本结构

Cyril Weir教授及其专著

Weir, C. J. (2005). Language testing and validation: An evidence-based approach. Basingstoke: Palgrave Macmillan.

关于剑桥领思的效度研究

目前剑桥领思已进行的效度研究涉及内容效度、认知效度、评分效度和后果效度等方面。

内容效度可以通过专家评估(Expert Review)和试测(Trial Testing)收集考生对于测试的反馈以进行优化。认知效度主要通过眼动跟踪等方式检验考生在解题时是否遵从了正常的语言和认知过程。后果效度可以通过对参加过考试的考生及帮助备考的教师进行“影响研究”(Impact Study),来挖掘考试对其英语学习、工作及社会等方面的影响。

专家问答

徐博士有哪些关于效度和信度的参考资料推荐?

关于效度和信度的理论和研究,大家可以参考以下教材。

Bachman, L. F., & Palmer, A. S. (2010). Language assessment in practice. Oxford: Oxford University Press.

Carr, N. T. (2011). Designing and analyzing language tests. Oxford: Oxford University Press.

Douglas, D. (2010). Understanding language testing. London: Hodder-Arnold.

Fulcher, G., & Davidson, F. (Eds.). (2012). The Routledge handbook of language testing. London: Routledge.

Weir, C. J. (2005). Language testing and validation: An evidence-based approach. Basingstoke: Palgrave Macmillan.


剑桥领思的效度和信度验证还在进行吗?

是的。效度和信度的研究会持续进行。这是因为随着剑桥领思的逐渐普及,考生、考试环境(比如在家考试)、考题形式(比如新题型的研发),技术的运用,以及考试的后效(比如考试对课堂教育的影响)都在不断发生变化。这些变化都会对效度和信度研究提出新的要求。



徐博士分享的眼动跟踪研究很有趣,它是如何帮助验证效度的?

眼动跟踪实验主要帮助研究考生的答题过程,从而为考试的认知效度(cognitive validity) 提供有力证据。考生的答题过程既要与语言能力和二语习得的理论相互印证,也要和实际生活中语言交流的特征基本相符。


小试牛刀

学习完徐博士关于效度与信度的讲座,快来测试下你掌握了多少?号外!Write&Improve最新开放了剑桥领思的任务模块,欢迎大家去尝鲜AI赋能的写作练习!与此同时,参与有奖答题,还有机会获得专属的Test Zone Code,解锁更多剑桥英语的写作练习内容!


1

How can you check the scoring validity of a computer marker?

以下哪种方法可以测试计算机考官的打分效度?

a. Test-retest reliability

b. Parallel forms reliability 

c. Internal consistency

d. Inter-rater reliability


2

What are the two main approaches for Criterion-based Validity? 

以下那两种是检验“标准相关效度”的主要方法?(多选)

a. Reception

b. Production

c. Interaction

d. Mediation


3

What kind of validity does the following definition refer to?

以下定义描述的是哪个效度维度?

“It is concerned with the extent to which the mental processes activated by the test tasks replicate those involved in a target context of language use.”

a. Criterion-based Validity 

b. Scoring Validity

c. Cognitive Validity

d. Consequential Validity

在留言区说出你的答案,我们将随机抽选答对的幸运读者,赠送Write&Improve专属Code!

获奖名单

上期答案

c, d, b

头像

昵称

No.1


Sophie Lin

No.2


阳光很活泼

No.3


陈小蚊

恭喜以上3位朋友获奖,你们将获得Write&Improve专属福利一份,请将你的邮箱在文末留言(为了保护隐私我们将不会公开留言),我们将尽快为你发送奖品。

剑桥领思正式开放线上考试报名

足不出户拿到英语水平证明

剑桥大学英语考评部研发的剑桥领思全套在家考试解决方案已在中国正式启用,帮助考生足不出户完成考试。报名、考试、监考、出成绩各个环节都能远程在线完成,顺利获得英语水平证明。作为剑桥英语测评家族的一员,剑桥领思集最新科技和我们一贯的高效度和高信度于一身,提供快捷、准确、权威的英语水平测试方式,开启全新的人工智能远程在线测评时代,与剑桥英语现有考试形成更加完善的英语评测体系,共同助力每位英语学习者的每一步。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多