论PISA结果在方法论层面的使用误区

张福涛lu70kpm9 2019-12-06

展开全文

随着PISA近年在全球范围的风靡，各国政策制定者纷纷把PISA成绩视为推行教育改革的重要参照。政策制定者对PISA结果进行了去地方化和去情境化解读、非严谨性因果推论，以及基于政治目的的政策借鉴等误导。文章基于PISA数据在方法论层面的使用误区进行了深度挖掘，主要从样本排除率过高、目标人群不具备整体代表性、学生成绩预测模型具有内在设计误区、“趋势指标”具有误导性这四个方面讨论了PISA结果在方法论层面的局限性，以促使相关人士在解释和使用PISA结果时更加谨慎。同时，文章也呼吁经合组织的PISA结果报告更加明确地表明其局限性。

近些年，经合组织（Organization for Economic Co-operation and Development，OECD）发起的国际学生评估项目（Programmefor International Student Assessment，PISA）在全球的影响力呈不断扩大之势，参与成员自2000年的43个增加到2015年的70余个，其中包括许多非OECD成员方。PISA结果对各国教育体系的影响越来越凸显。但是，当政策制定者、权威智库机构、媒体等将PISA结果用于政策改革时，往往对评估结果进行各自利益驱动下的解读与使用，这不仅导致PISA结果被滥用，还带来了严重的误导。本文从方法论的角度，探讨PISA数据在利用与解读的过程中需要注意之处。

一、PISA结果带来的全球教育影响

在过去的60年里，国际大规模评估成为一项影响教育政策的重要手段。PISA是OECD成员方之间通过协作来测量这些国家或地区15岁学生在义务教育阶段的学习成绩、社会技能等表现的大型跨国教育项目。PISA在全球范围的拓展，缘于教育发展的需要，更是基于政治决策对于科学和实证方法的需求，因为数字往往被认为是政府科学化管理的基础。除此之外，数字的直观性使得任何一个参与成员都可以“不受时空限制地和他国进行比较”，这相当于有了一双“全球眼”。尽管OECD表示PISA创办的初衷是方便各国的教育政策制定者检验本国的教育质量，即“PISA作为一种比较的手段，应当成为国际通行的标杆，用于衡量各国教育体系的优劣”，但目前而言，PISA所起的作用远不止于此。

自第一次结果发布，PISA就给世界教育系统带来了极大的改变。如2001年引发德国“PISA震惊”（PISA Shock），引起了德国的大规模教育改革。类似影响不仅出现在德国，还扩展至日本、丹麦、芬兰等国家。“每一次PISA结果发布，都会对政府、新闻界和教育界产生极大震撼”。这句话在时刻保持危机感的美国亦得到了验证。如2012年PISA结果公布后，时任美国联邦教育部长阿恩·邓肯就呼吁高中教育采用PISA准则作为改革标准，他认为当时的美国教育已“停滞不前”。

媒体和政策决策者们也对PISA结果十分感兴趣，尤其是成绩排名（League Table）。这些排名指明了教育中所谓的“胜者”和“败者”，胜者受到追捧而败者则要面对各方的批评。芬兰在前几轮的PISA测试中均排名首位，大量的学者和政策制定者前往这个北欧岛国做实地调查，以求发现芬兰教育成功的秘密，各国大量的电影、书籍和指导材料都以芬兰教育为榜样。这一趋势持续到2009年。我国上海第一次参与PISA就取得了阅读、数学与科学3项第一的成绩，远超芬兰。在2012年的PISA测试中上海再一次夺冠，同芬兰一样成为了国际教育界关注的焦点。此时，芬兰媒体对本国PISA分数的下降进行了批判性报道，称芬兰的教育体系“近乎崩塌”，但实际上芬兰的教育并没有发生多大程度的改变。

上述可见，PISA在教育政策方面对各国产生了深刻影响，这就需要相关人士在发掘、运用和阐释PISA数据时首先要深刻地认识到PISA数据的局限性以及这些局限可能带来的负面影响。下文将从PISA数据的取样过程、测量过程，以及每轮PISA之间的衔接性等方法论层面阐述PISA数据存在的局限，从而帮助人们更理性地看待PISA数据带来的“全球效应”。

二、PISA数据使用在方法论层面的局限

（一）样本排除率过高

PISA参与人群取样过程中的一大问题是“样本排除率”（exclusion rates）高于国际标准。通常来说，PISA参与人群的抽样程序遵循非常严格的技术标准，而且整个流程和最后的数据库都将随时接受调查，以确保满足这些标准。PISA的目标人群是七年级及以上处于各国相应教育系统中的15岁学生。PISA通常使用两阶段分层法来选择目标群体，第一阶段是根据所有学校人数比例分层选取至少150所学校，第二阶段是从这150所学校中分别随机选择35名15岁的学生参与测试。在每个教育系统中，至少保证有4500名学生参加测试。这一抽样过程的目标是样本能够代表目标人群——15岁在校生，而不是所有15岁人群。为了确保学生样本代表目标人群，有几个针对学校和学生的排除标准，如具有严重智力或功能残障的学生、语言能力不足的学生，或者接纳这些学生的学校。一般而言，样本排除率应保持在该年龄人群总人数的5％以下。

尽管在一开始就考虑到PISA取样的规模和范围，但取样过程仍然在很多国家出现了偏差。例如，有8个国家的样本排除率超过了5％，其中卢森堡样本排除率达8.4％。之所以将样本排除率的最高值定为5%，就是要确保排除了不符合样本的学生或学校之后，参与方的PISA平均成绩的误差低于±5分。因此，过高的样本排除率可能会带来超出预期的“数值扭曲”，导致不精准的推理和结论。因此，表格中所有的不符合采样标准的数据都应该在脚注中加以说明。

实际上，关于样本误差的说明仅在PISA报告第一卷的附件中有记录，主要表格中并没有加以说明，而且再次使用该数据时，这些误差更容易被一概而论。有关样本排除率的其他信息也可以在OECD发布的技术报告中找到，但是技术报告一般在PISA结果发布1年后才可获得，比如2015年PISA的技术报告需要在2017年年底才可以看到，具有滞后性。

（二）目标人群不具备整体代表性

关于样本抽样的第二个问题涉及人口的整体覆盖率，即样本是否能够有效地代表不同教育体系该年龄段的总人数。在目标人群——15岁在校生中，PISA样本具有很高的代表性，但2012年的65个参与方中，超过16个国家的目标群体占所有15岁群体的比例不到80%，包括表现最好的中国上海。其中，哥斯达黎加目标群体只占所有15岁群体的50％，而阿尔巴尼亚和越南则分别占55％和56％。这表明所有15岁的人口中有将近一半的人口没有被纳入抽样调查范围。

虽然这不是一个普遍现象，但类似于“PISA结果可以代表15岁这一年龄段青年的整体学业水平”“这一结果将具有普遍的预测性”等论述在上述国家不具适切性。这些国家较低的目标人群覆盖率大大削弱了OECD在报告中的某些声明的准确性，如PISA结果所预测的学生素养是人力资本的重要指标，同时也影响到整个社会的发展与稳定：各国人力资本的总体指标需要涵盖15岁辍学或已工作群体的情况。

（三）学生成绩预测模型具有内在设计误区

PISA学生学业成就评估模型以“拉斯参数反应理论”（Rasch Item Response Theory）为理论基础，其假设前提之一是“对于所有测试人群，PISA测试项目具有均等效应性”，即不同文化背景中的人群对PISA测试项目的难易程度具有同等接受能力。值得注意的是，在实证调查中，这一假设并不成立，而且建立在这一假设之上的实际测试过程中出现的众多背景性误差会影响最终的排名结果，尤其是对于中等教育水平的国家。另有调查发现，这一模型具有极大的偏差——在一些地区偏差率甚至高达95%~99%。因此，不严谨的假设造成最终的排名不够精确，从而得出错误的结论，具有严重的误导效应。

与成绩预测模型相关的另一变量就是学生的家庭背景因素。然而，对于一些复杂的社会性问题，受测学生并不能准确地理解，导致其答案与实际家庭背景情况有出入。此外，与PISA类似的国际评估研究表明，受测学生对问题的理解程度有限，导致学生与家长对同一问题的看法之间存在差异，而且这种差异在教育体系欠发达地区表现得更加明显。

此外，PISA 2012出现了相关变量较大的数据缺失，如“在家里最常使用哪种语言”这个问题上，数据丢失达12%。尽管所有社会科学数据都存在误差，但其都有一定的标准区间，相较之下PISA的数据缺失较大。

（四）“趋势指标”具有误导性

最后一个方法论层面的局限性体现在对PISA结果的趋势判断方面。在每一轮的PISA中，都会有一科主测试科目，另两科为辅。例如，在2009年，阅读作为主测试科目，占PISA总测试时间的60％，剩余40％的时间则平均分配给数学和科学两门科目。PISA的主要结果之一被称作“趋势指标”（trend indicators），以显示随着时间的变化，PISA测试结果会发生怎样的改变，并预测PISA的未来发展趋势。这对当前国际范围流行的新自由主义教育改革具有指导作用，因而被各国政策制定者所关注。为了达到趋势指导作用，PISA测试的一部分选题被严格保密，并未对社会公开，并在下一轮测试中再次出现。这些选题作为各轮测试之间的桥梁，对数据的统计和趋势测量起着重要的作用。例如，在2012年的110个数学项目中，有35个与2009年相同，48个与2006年相同，84个与2003年相同。其中，数学是2012年和2003年的主测试领域，因此这两轮数学测试的选题重复度较高。实际上，相邻两轮PISA之间的测试题目具有关联性。例如，2012年PISA数学测试与2009年PISA数学测试相关联。通过这种方式，2012年的学生PISA成绩与2009年相关联，2009年与2006年相关联，以此类推。然而，人为的或试题选择过程出现的各种问题，导致关联过程中存在固有的错误，简称为“关联性错误”（Link Error）。就选题而言，尽管各轮测试之间存在选题重复性，尤其是主测试项相同的年份，但每轮之间的选择重复率在某些科目中很低，大大影响着对PISA测量趋势的预测与判断。例如，在2000年和2009年的主测量科目科学中，只有5个选题相同。

另外，数学和科学在成为主测试科目之前，其框架未得到有效开发，这也自然影响之后的项目框架的质量。虽然目前的PISA技术报告都会明确这些趋势预测的局限性，但很多文章对这些问题避而不谈，这容易使研究人员忽略PISA测试的技术问题，放任没有数据支撑的教育发展趋势判断干预教育发展。

三、结语

那些没有全国教育评估体系的国家已经逐步参照PISA建立了标准的国际规范和技术体系，以了解自身的教育发展水平。PISA已然成为一个有价值的教育测量工具，但其内在的缺陷和使用过程中出现的问题在近些年受到很多学者的批判。PISA在全球范围树立起的标杆性地位也处于风口浪尖，因此要充分利用PISA数据的价值，就必须对其内在的局限有全面的了解。对于PISA的开发机构OECD来说，在使用和解释PISA数据的时候，需更加谨慎。下文提出两条建议，以呼吁OECD对PISA结果进行报告时更加明确地表明其局限。

第一，虽然PISA技术报告通常会向读者说明数据的局限性，但是这些局限或注意事项通常被埋没在大量其他细节和信息中。阅读PISA报告和手册的人们在面对大量表格、图形、文本时很容易忽略有关其局限性的描述。因此，笔者建议在PISA报告中专门设置相关章节阐述项目存在的局限性，包括更详细的解读、更多的链接、相关访谈资料等。这将使读者能够更有效地了解与PISA方法和结果相关的局限，以帮助政策制定者和其他利益相关者在研究过程中更加谨慎地使用相关数据。

第二，OECD发布PISA技术报告的时间应与PISA结果的发布时间同步。相比之下，国际教育成就评价协会（International Association for the Evaluation of Educational Achievement，IEA）在其开展的国际学业成就研究结果公布后的一个月内就提供了技术报告。鉴于每一轮PISA在技术层面都有创新，因此对于研究人员来说，在不知晓技术的情况下单纯对PISA结果进行阐释和使用，会显得很空洞。

来源：世界教育信息杂志2019年第4期