郭凡民　孟汇涓等：GMAT 综合推理试题的研发及效度验证

昵称21189171 2017-06-12

展开全文

作者：

郭凡民，博士，美国管理类研究生招生理事会，副总裁。

孟汇涓，博士，美国管理类研究生招生理事会，高级心理测量师。

Han Kyung（Chris）Tyek，博士，美国管理类研究生招生理事会，高级心理测量师。

Talento-Miller Eileen，博士，美国管理类研究生招生理事会，高级心理测量师。

原文刊载于《中国考试》2016年第11期。

摘要：美国管理类研究生招生理事会在充分调研成功完成商学院核心课程所需要的学业技能的基础上，历时7年完成GMAT综合推理试题的研发，于2012年正式推出新版GMAT考试。本文介绍综合推理试题的研发过程，并通过具体数据展示其考试效度，希望可以为考试主办方开发考试、设计创新题型以及进行效度研究提供参考。

关键词：考试开发；效度验证；创新题型；GMAT

　　美国管理学研究生入学考试（GMAT）是专门用来测试商学院申请人学业能力的一项标准化考试，它的主办机构是美国管理类研究生招生理事会（GMAC），其考试内容由GMAC组织各大商学院的教授集体拟定，旨在为商学院筛选申请人提供客观、科学、有效的考查标准，并对学生在入学以后学业成功与否作出可靠的预测。

　　GMAT自1953年问世以来，经历了许多变化，从笔试到机考，从固定试卷到使用题库，从单一难度试卷到为不同能力的考生量体裁制的自适应考试，但它的测评宗旨从未改变。GMAC和不同商学院合作共完成1241个研究报告，它的考试效度被屡屡证实，它的考试结果也得到越来越多商学院的认可。到目前为止，全球共有114个国家、2100多所大学、6000多个工商管理专业使用GMAT的考试分数作为录取学生的标准之一。

　　2012 年6 月5 日，GMAC 宣布GMAT 在已有的文本推理（Verbal Reasoning）、定量推理（Quantitative Reasoning）和分析性写作（Analytical Writing）3部分考查内容之外，增加综合推理（Integrated Reasoning，IR）部分，以此来测量考生对不同来源、多种形式的信息进行分析评估的能力。这一部分的考题大多使用创新题型（非传统的单项选择题），开发实施成本很高，题目撰写费时费力，数据采集分析难度也大于其他部分的试题。GMAC 为什么在GMAT早已成熟并为广大商学院认可的形势下要做如此重大的改变？他们通过怎样的研发过程来保证这一部分试题的有效性？4年过去了，大量的考试数据能否证实综合推理在GMAT效度中占有一席之地？这是本文所要回答的问题。

GMAT 增加综合推理的缘由

1.1　旧版GMAT 考试信度与效度

　　旧版GMAT包括定量推理、文本推理和分析性写作3 部分（见表1，略），考试时间为3 小时30 分钟。这一考试结构确定于1997年GMAT首次使用题库的计算机自适应考试（CAT），此后15年从未改变。GMAT考试分数非常稳定可靠，定量推理的平均信度为0.9，文本推理为0.89，分析性写作的评分者信度为0.88，而总量表分数（包含定量推理和文本推理两项分数）的信度则高达0.92，充分满足了GMAC为商学院招生提供有效成绩所需要的前提条件。

　　GMAC 为全球诸多商学院完成了407 份旧版GMAT的效度研究报告。在这些报告中，GMAT考试分数和学生的本科平均成绩（UGPA）被用来预测商学院研究生入学以来累计的平均成绩（GPA），GMAT总量表分数预测效度普遍高于学生的本科平均成绩预测效度。

　　此外，作为一个全球性的考试，为了保证其公平性，GMAT的每一道题在正式使用进入计分之前都需要预测试。通过大数据分析结果剔除表现不好的试题，以保证在同等能力的前提下，试题分数不会因为考生在性别、地域、语言文化上的不同而出现系统性的偏差，从而使某一群体的考生处于不利或有利状态。

　　所有这些分析研究结果表明，旧版GMAT自问世以来，在很长一段时间内都满足了商学院择优招生的需求，与其他录取条件（如本科成绩、推荐信、个人陈述等）相比，它的分数为校方比较申请人提供了一个公平、客观、稳定、有效的量化指标。

1.2　GMAT 改革：缘起与前瞻

　　进入21世纪，信息科学和电脑技术呈现加速发展，高等教育中与科技密切相关的商业学科自是首当其冲，在课程结构和专业设置上都呈现出比较明显的变化。很多商学院在传统的MBA专业中增添了综合性课程以及团队教学等元素，同时，为了满足不同行业、不同层次对管理人才的需求，专业类硕士（如会计、金融、市场营销等）及高级管理人员商科硕士（EMBA）等学位应运而生。针对这些变化，GMAC从2005年起就开始了一系列的前瞻研究，评估GMAT试题所考查的技能在当下是否依然有效。

　　2005年4月至2006年8月，GMAC委托美国大学入学考试中心（ACT）开展了一项研究，来自北美233个管理专业的844名教授共同评定了成功完成商科第一年核心课程所需要的知识和技能。这个研究使用的方法与美国1999年版《教育与心理测量标准》一书中所推荐的效度验证方法相吻合，它的结果为GMAC勾描出商科核心课程与学生必备的知识和技能之间的连接路径，并为新版GMAT技能问卷调查的拟定提供了坚实的基础。

　　2008 年6 月，针对欧洲国家新兴的专业类硕士，GMAC委托荷兰国际教育测量研究院（Cito）对10个欧洲国家、39所商学院的135个专业的核心课程进行了调查，从中分析提炼出它们在教学上所侧重的共同的内容。这个研究报告的结果提高了新版GMAT技能问卷调查内容的广度，为GMAT在全球范围内服务于传统的MBA和新兴的专业类硕士招生工作增添了有力的效度证据。

　　在2006年及2008年两项研究的基础上，结合旧版GMAT 的考试大纲，2009 年GMAC 再次授权ACT完成了一次大规模问卷调查，来自全球740多名商学院的教授共同审评了成功完成商学院核心课程所需要的学业技能。教授们的评分确认了文本推理、定量推理以及分析性写作内容的有效性。同时，旧版GMAT试题没有涵盖或未能有效测量的技能浮出水面（见表2），这些技能是近10年以及未来15年商学院学生学习和工作必须掌握的新技能，其重要性评分不逊于其他部分考查技能在调查中得到的分数。

２

GMAT 综合推理试题开发

2.1　机遇与挑战

　　表2表明，21世纪的商科人才需要具有对海量信息做高效分析以解决复杂问题的能力。2009年的问卷调查结果为GMAT改革指明了方向，GMAC作为众多商学院所信赖的服务机构，无疑面临着考试开发的巨大挑战。这一挑战表现在：第一，考试行业对文本和定量推理以及分析性写作能力的测评已有多年历史，从试题的内容、形式、数据分析到最终评分，方方面面都积累了大量经验，而对多源信息综合处理能力在标准化考试中的使用则是一个从未有人涉及的领域。可想而知，从抽象的对认知能力的描述到撰写客观有效的试题之间是一段不易的路途。第二，虽然Pearson VUE（负责在世界各地发送GMAT的公司）是计算机考试行业中的佼佼者，但其当时的系统内并没有适合此类试题的模板及相对应的数据采集功能，这项开发的投入成本相当可观。第三，GMAT是一项有半个世纪历史的优质考试，从内容结构到分数的区间分布早已为全球各大商学院所熟悉。如果在考试中加入太多新元素，会不会让学校录取部门对使用GMAT分数筛选申请人这种方法敬而远之？

　　面对这些困难和潜在风险，GMAC的决策者决定顺应变化进行改革。他们把这些挑战当作GMAT优化发展的一次重大机遇。如果成功，这些改变会使GMAT更加全面地考核那些与商科硕士专业相关的知识和技能，提高考试效度，更好地为商学院选拔学生服务。同时，机考创新题型的开发使用可以让GMAC一如既往地走在测试行业的最前沿，为其他考试机构提供可以借鉴的宝贵经验。

2.2　研发过程

　　从2009年6月GMAC 采取问卷调查确定新增内容，到新版GMAT正式启动历时3年多，经历了4个阶段，见图1。

　　针对在第一阶段建构研究中确认的4 项新技能，GMAC、ACT（负责试题开发）和Pearson VUE（负责试题发送）3个公司从2009年末开始了综合推理考试的研发工作。GMAC希望通过综合推理试题考查考生对复杂信息进行思辨、综合、归纳、推理的能力，而已有的GMAT题型（单项选择题）无法满足这个测试需求。此外，对这种能力的测试从未出现在其他同类计算机考试中，没有人清楚何种形式的试题既适合机考又可以准确地测试新增技能。因此，开发团队首先详细地定义了新技能和其可能对应的考核途径，浏览了Pearson VUE机考平台中已有的创新题型模板，借鉴心理认知理论和教育测量理论设计了15 种全新题型。通过受试者有声思考和两次试测结果，开发团队最后确定了综合推理试题包括表格分析、二段式分析、图表解读和多信息源推理4种题型（具体样题可见GMAC官网），并在2011年7月至8月完成了题库建设。

　　为了保证新题型研发的质量和效率，GMAC制定了一套评估新题型的标准。主要有以下几点：

　　（1）测试新增技能：开发团队让受试者一边解题，一边说出他/她对试题的理解、思索问题时使用的信息来源，以及回答问题时考虑到的各种因素。通过他们的具体反馈，命题专家确定每种新题型测试的潜在建构，从而作出选择。

　　（2）利用机考优点：入围题型充分体现计算机的优势，具有在纸笔考试中难以完成的特性。如在表格分析题目中，考生可以使用电子表格的排序功能来排列信息，这是商科人士日常办公中经常使用到的功能，却只能在机考中实现。这些题型特有的内容和形式极大程度地提升了GMAT的表面效度和内容效度。

　　（3）方便记分：是否可以清晰准确地评分是GMAC选择题型的另一重要标准。因为计算机的强大功能，机考题型可以非常新颖复杂，实现人机时时互动。但是这样的试题在自动评分、其分数的效度和解读上往往存在很多问题，限制了它们在GMAT这一类考试中的使用。

　　（4）有效防止舞弊：题目的信息量大、头绪多，并且较为复杂，考生需要在有限的时间内厘清关系，提取有用信息来回答问题。这一类试题不太容易被复述下来或者通过几个关键词记住题干和答案，这样可以较好地控制在高风险标准化考试中的偷题现象。

　　（5）有效区分考生水平且无偏差：GMAC 在2010年和2011年收集了大量的试测数据，分析总结每一类试题的难度、区分度、所用时间，与旧版GMAT分数的相关系数，以及就性别、语言、国籍得到的试题功能差异指标（DIF）。这些结果为开发团队甄选题型提供了客观标准。

　　（6）可以大量出题且经济可行：比起文本和定量推理试题，综合推理题目更加复杂，实施成本也高出许多。另外，GMAT每年考生人数可观，为了保证考试公平，GMAC需要定期更新题库，因此试题的需求量很大。基于这些原因，最终入选的综合推理题型普遍具有容变性强、在计算机上易于实现的特点。

　　根据2011年试题预测结果，开发团队初步拟定了综合推理部分的考试设计，包括内容、比重、题目数量、难度和区分度的统计指标以及考试时间。2012年1月进行整卷试测，建立了量表分数。新版GMAT于2012年6月正式启用，这是GMAC历史上第10次重大的考试变革。在综合推理题型（12题30分钟）启用的同时，分析性写作题目数量由2篇减为1篇，时间缩短为30分钟，故考试总体时间没有改变。综合推理没有采取自适应考试的选题模式，而是使用了传统的线性设计，通过等值将试卷原始分数转换为量表分数。

３

GMAT 综合推理试题的效度研究

　　GMAC 3次大规模的问卷调查以及对综合推理试题的有声思考结果，从定性的角度反映了GMAT考试的构建效度。围绕新增的综合推理试题，GMAC也做了很多从定量角度出发的效度研究。

3.1　内部相关系数（Internal Correlation）分析

　　这类研究主要是分析考试各部分之间的相关性。表3 是新版GMAT 考试各部分分数的相关系数。综合推理的分数和已有的文本推理、定量推理、分析性写作分数以及量表总分均呈现出中等程度或中等偏下的正向相关，这也是测试专家希望看到的结果。如果它们之间的相关系数过高，增加综合推理考试就不可能提供新信息，它就没有存在的必要。

3.2　考试维度分析

　　主成分分析和验证性因子分析都是从众多变量中提取共同因子的统计技术，它们常常被用来验证考试的维度，通过分析试题分数或各项内容的分数来确定整个考试所考查的是否是同一领域中的知识和技能。旧版GMAT中两大核心部分是定量推理和文本推理，它们之间有关联但各有侧重，所以两维模型可以很好地解释数据。综合推理试题开发出来后，GMAC需要检测这部分是否可以在定量推理和文本推理之外构成一个单独的维度，哪些试题最大程度地支持这个维度，它和已有的两部分又有怎样的关系。针对这些问题，GMAC使用2012年11月的实测数据对新版GMAT进行了维度分析。

　　因为综合推理部分是以固定试卷的模式发送考试，数据相对工整，而定量推理和文本推理两部分是自适应考试，考生数据里有很多题目没有分数（见图2中的A，略），已有的题目分数也受限于CAT独特的选题方法，在分析中不能简单地计算并使用定量推理和文本推理部分中每项考查内容的原始分数（答对题目总数），它们之间的协方差也比较低。通过使用题目的IRT参数，GMAC计算了单项内容的能力分数θ，从而获得了可以用在主成分分析和因子分析中的完整数据（见图2中的B，略）。加灰部分是回答某一套综合推理试卷的所有考生的各项分数，无一疏漏。这种方法也曾被用在其他自适应考试的建构效度研究中。

　　与其他研究不同的是，GMAC没有使用已有题目参数，而是将数据按单项内容分开，在每个内容下重新估计试题参数，然后计算能力分数θ。这样做是因为在估算每部分题目参数时，所有的试题都被假定为测试同一种能力（定量推理或文本推理）。在单维IRT模型下，不同题目所测试的技能和它们之间的关系有可能被削弱并简单化。而在每个部分每个内容下单独估算题目参数从理论上来说弱化了这种影响，使维度分析更精确。

　　在主成分分析中，二维和三维模型被用来定义数据（定量推理和文本推理单项内容的能力分数和每个综合推理试卷上的试题分数）。表4（略）是主成分在单项内容和每道综合推理试题上的负荷。毋庸置疑，三维模型可以帮助我们更好地解释数据里的变化（方差总量从39.6%增加到52.0%）。不少综合推理试题在二维模型下的主成分负荷都小于0.3（可接受范围的分界点），而在三维模型下，通过极大旋转（Varimax），它们明显附着于第三个成分，并和其他两个主成分泾渭分明。

　　在主成分分析结果的基础上，GMAC进一步从不同角度（考查内容、认知能力、题目类型）对数据进行了因子分析。如图3（略）是从综合推理考查内容角度勾画的内部结构：两项内容，一项和数学有关，一项和数学无关，而验证性因子分析的结果可以帮助我们了解综合推理这两项内容与文本推理及定量推理之间的关系。

　　在GMAT 的结构方程模型（SEM）中，所有的因子之间可以有关联，文本推理和定量推理单项内容的能力分数被作为因子分数，它们的方差被固定为1。根据分析角度的不同，Han共计算出三组综合推理潜在因子。图4（略）中综合推理部分的因子（IR_A1和IR_A2）是根据不同考查内容下的试题分数计算出来的。

　　表5（略）是图4模型下的分析结果，文本推理与定量推理各自的因子之间的相关系数普遍很高（最小的为0.58），为它们使用IRT模型满足单维假设提供了证据。在综合推理下，与数学相关的试题（IR_A2）可以比较有效地同时测试文本推理和定量推理的能力，而与数学无关的试题（IR_A1）所考查的更多的是文本推理方面的能力。

　　表6中综合推理的潜在因子是从认知能力的角度计算出来的，它们之间关联度很高（0.65～0.89），说明考生在回答综合推理问题时所需要的认知能力大体在同一范畴内。它们与文本推理的因子之间相关系数比较高（0.54～0.63），但与定量推理的分数因子之间的相关系数普遍较低。这个结果与综合推理考试目的相吻合。毕竟不论测试的是哪种能力，对多源信息的综合处理首先是建立在读懂信息的基础之上的。

　　表7中综合推理的潜在因子是从试题类型的角度计算出来的，结果和表6相似：4种题型之间高度相关（0.70～0.91），它们与文本推理的因子相关度也比较高（0.55～0.63）。其中两种题型与定量推理的因子呈中度关联（0.44～0.60），另外两种结果偏低（0.22～0.40）。

　　这些验证性因子分析的结果为GMAC从各个层面理解综合推理的试题以及确定考查内容和试题题型在考试中的比重分布提供了重要依据。

3.3　预测效度（Predictive Validity）分析

　　自2012 年6 月新版GMAT 正式使用以来，GMAC与北美、欧洲及亚洲各大商学院合作，共进行了25项包括综合推理分数的预测效度研究，用商学院在读学生GMAT 的各项成绩和本科平均成绩（UGPA）来预测他们入学后半年至一年内的GPA。在这类研究中，预测效度系数就是预测变量和GPA之间的相关系数。对于录取类的测试，相关系数在0.3~0.4就可以被用作考试预测有效的证据。

　　GMAC还使用多元回归分析方法计算综合推理可以多大程度地提高GMAT在UGPA之外预测学生GPA的能力。如表8（摘自某商学院2014年GMAT效度研究）所示，单独使用UGPA预测效度系数是0.28，如果加入综合推理分数，预测系数升到0.44；如果在UGPA外加入文本推理、定量推理和写作，预测系数则升到0.47，再加入综合推理，预测系数提升到0.51。考虑到综合推理试卷只有12 道试题，考试时间只有30分钟，它对预测系数的提高已非常可观。

　　图6是这些变量在解释GPA数据方差总量中所占的比例。其中，综合推理高出UGPA 10个百分点，高出分析性写作14个百分点，仅比GMAT总量表分数（150分钟，共88道题）低8个百分点。这从另一个角度展示了综合推理在预测效度中的作用。

　　在这些预测效度分析之外，GMAC又针对性别、地域以及不同本科专业的学生做了同样的分析，这些结果可以帮助商学院录取学生时作出更精准的判断。

４

总结

　　综合推理试题在GMAT考试中已正式使用近4年，它对商科学生学业的预测能力逐渐为各大商学院所认可。2016年3月GMAC在为美国6所著名大学EMBA 申请人量身定做的入学考试（Executive Assessment）中，综合推理的试题数量及考试时间已与文本推理、定量推理基本相当，进一步表明了商科教授对这部分测试内容的重视。另外，据GMAC在2013年对商学院校友的调查报告，善于使用综合推理能力在职场中至关重要，它们在工作中被使用的频率明显影响到商科人士收入的高低。这些研究结果及市场反馈肯定了GMAT改版的前瞻性和必要性，也证实了综合推理考试设计和创新题型研发的成功性。本文希望可以为其他考试机构开发考试、设计创新题型，以及进行效度研究提供一些可以借鉴的经验。