分享

【写民族志】民族志研究方法在语言测试研究中的应用

 無情360 2018-03-13

Ethnographic Methods in Language Testing Research:An Overview

【作者简介】 邹申,上海外国语大学英语学院教授、博士生导师。研究方向:语言测试。


【摘要】 当前语言测试研究视野已拓展到测试对象、测试任务、测试过程、测试结果使用以及测试效应等。随着研究范畴的不断扩大,研究方法也出现多样化趋势。越来越多的语言测试研究者采用观察、访谈、问卷调查等形式(在广义上可纳入民族志研究范式) 开展研究。本文将从方法论的角度,讨论上述研究方法在语言测试研究中的作用并辅以实例阐述其应用价值。

【关键词】 语言测试;民族志研究方法


引言

    随着语言测试研究视野的不断拓展,研究者不再只关注测试结果的可靠性和稳定性,研究视角延伸到测试对象、测试任务、测试过程、测试结果使用以及测试所产生的效应等。伴随着研究范畴的扩大,研究方法也呈现多样化态势。除了实验研究和传统的统计方法之外,研究者还采用观察、访谈、问卷调查等多种形式(在广义上可归入民族志研究范式),况且后者在语言测试研究中的作用日益凸显。本文从方法论的角度,讨论上述研究方法在语言测试研究中的作用,并辅以实例阐述其应用价值。

1 定义

    《英汉大词典》(1993)中ethno-词条的汉译为:“人种”、“种族”、“民族”。《新牛津英汉双解大词典》(2007)中ethnography 的释义是:the scientific description of peoples and cultures,with their customs,habits,and mutual differences(人种志、民族志)。本文综合两部词典译法和当前用法:ethnography 译为“民族志”。

    民族志最初以研究人群/种族及其文化习俗为目的,采用的方法是科学描述。根据Harklau(2005:179)的观点,民族志起源于人类学和社会学研究,其特点是研究者在特定的社会环境里进行实地、自然和持续的观察和参与。最初,民族志旨在深入了解个人/群体在社会和文化环境里的观点和活动。目前,民族志的内涵已泛化,不仅指人类学、社会学或民族志范畴,还代表一系列不同的研究范式(Atkinson,et al,2001)。因而,学者们在讨论民族志研究范式时会采用不同分类法。

    McDonough 和Steven (2000) 把研究范式分为两种:normative(规范性) 和interpretive(解释性)。前者具有下述特点(2000:48):

    description by numbers

    significance in terms of probability

    use of experimental or quasi-experimental designs

    generalization from sample to population

    the search for causes.

    从中我们看出,规范性研究具有量化特质(quantitative)。解释性研究的特征为: participant research,local and non-local organization,generalization,the search for meaning interpretations,qualitative data 等(2000:50-53)。Participant research 指研究者本人也是研究过程的参与者;local organization 指该研究范式侧重环境的“原生态”(naturalistic)。比如,观察的班级为自然班,而非随机组成。当然该范式并非只关注某一特定自然环境内的行为,要使研究结果具有价值,研究者还必须关注该行为在其他相同环境里是否具有同等解释意义。这也就要求研究结果具有概括性(generalization)。Search for meaning interpretations 是该范式的另一特点:研究者在过程中的自我反思和相互反思。最后,解释性研究范式的数据是定性数据(qualitative),因为数据主要来自于观察、访谈、田野数据记录、问卷、录音转写等。总而言之,解释性研究范式要求研究者本人的参与、研究环境的真实性,采用观察、访谈等形式,以及关注研究群体的独特性。这些特征与民族志研究具有相似性。

    Brown(2001) 把研究分为两大类: secondary research和primary research。Secondary research 指基于他人研究成果上开展的研究,比如文献综述。Primary research 则指依赖第一手资料从事的研究,比如课堂观察结果、学生考试成绩、问卷调查数据等。Primary research 又分为:qualitative,survey 和statistical。Qualitative研究数据来源包括实地记录、案例分析、日志等。Survey 研究数据主要来自interview 和questionnaire。Statistical 研究数据则来自描述性研究、探索性研究和实验研究。在Brown 的分类中,常规民族志研究方法分别包含在qualitative 和survey 类别中。

    Seliger 和Shohamy (1999) 把研究范式分为定性(qualitative)、描述性(descriptive) 和实验研究(experimental)三类。其中,定性研究范式具有探索性(heuristic)、综合性(synthetic)和对变量控制程度低等特征(Seliger 和Shohamy,1989:116-119),是典型的假设构建(hypothesis-generating),即在数据收集基础上建立假设,而不是验证假设(hypothesis-testing)。在研究方法上,Seliger 和Shohamy(1989) 把定性研究方法等同于民族志研究方法,因为前者源自于人类学家和社会学家所采用的方法。人类学家和社会学家所关注的是自然状态下的人类行为,研究者不影响或介入过程,并期望从研究对象处获取真实观察数据,以发现规律构建理论模型。

    上述分类显示,民族志研究方法和常规定性方法相互交融,有诸多相似之处。比如,观察(等同于) 自然状态下的个体或群体行为,并在此基础上提炼、归纳共同特质,以构建理论(模型)。这种研究模式非常适合外语教学的研究目的和研究对象。外语教学研究关注学生(个体或群体)如何学、老师(个体或群体)如何教,以及两者(还有其他因素) 之间的交互作用。因此,20 世纪90 年代以后,民族志研究方法成为外语教学研究的主流范式之一(Harklau,2005:185)。除了常规的观察法、实地记录、录音/像和访谈之外,研究者还采集其它信息,比如教师授课笔记、讲义、授课计划、教材、学生日志、问卷、个人经历等等。由于篇幅有限,本文无法详述研究方法论中民族志研究范式的作用和地位。尽管如此,我们还是能够看出民族志研究范式已成为一种常规研究范式,其具体方法已成为许多研究设计(特别是语言教学研究)必不可少的部分。

2 民族志研究方法在语言测试研究中的应用

    2.1 理论渊源

    语言测试结果的呈现形式大都是分数,即(数字)数据;对这类数据的处理、分析则涉及测量。因此,语言测试从根本上属于测量范畴。纵观当前语言测试领域的代表性研究成果,相当一部分语言测试研究是以定量研究为基础,采用愈来愈成熟和复杂的测量或统计程序来探索测试构念等一系列问题。正如MacNamara(2001:334) 所说,“在应用语言学所有分支中语言测试大概最具有实证研究趋向。”

    然而,在语言测量技术不断发展的同时,人们的研究视野也在不断拓展;关注点从测试本身或测试分数延伸到测试过程、测试形式、社会效果、测试相关利益群体等;从测试信度拓展到测试(构念) 效度、测试公平性等。而测试研究视域不断扩展离不开测试研究者在理论方面的执著探索。Messick(1989) 在测试理论贡献方面功不可没。根据Kunnan 的观点( 2005:780),Messick 的效度统一观理论(a unified view of validity),革命性地改变了传统效度理论(即效度分为内容效度、校标关联效度和构念效度),进一步深化了人们对效度的认识。Messick 效度理论的重要性还体现在他第一个把测试价值涵义(value implications) 和社会效应( social consequences) 纳入理论框架。他明确提出(Messick,1989:13),测试效度的关键是“interpretability,relevance,and utility of scores,the import or value implications of scores as a basis for action,and the functional worth of scores in terms of social consequences of their use. ”也就是说,测试结果在决策过程的作用和使用效果应该纳入测试研究视野。总之,Messick 对效度理论的贡献在于他提出了效度作为统一概念的构想。其次,在这个统一概念的框架里,构念效度占主导地位,且考试的社会效果开始作为效度研究的重要方面。之后,语言测试界愈来愈关注测试结果所产生的社会效应。

    比如,Alderson 和Wall(1993) 提出一个考试反拨效应框架,含有15 个假设。该框架旨在从内容、方法、进度和顺序、程度和深度、态度等五个方面观察测试对教与学的影响。

    又如,Bachman 和Palmer(1996:17-40) 在总结前人研究的基础上,提出了一个考试有效性模型(modelof test usefulness),即考试效度研究框架。这个考试有效性模型包括六种考试特性:信度、构念效度、真实性、交互性、影响度(impact) 以及可操作性。其中影响度指考试对社会、教育体系以及处于这些体系中的个体(包括考生、教师)所产生的影响。这种影响涉及两个层面:微观及宏观层面。微观层面主要指受某一考试使用影响的个体。受宏观层面影响的主要是教育体系或社会。在Bachman 和Palmer(1996) 的框架中,测试对教与学的影响(即反拨效应) 被视为测试影响度的一个方面。考试反拨效应不是一种孤立现象;对教与学的影响也会扩展到教育体系甚至于社会。从某种意义上说,Bachman 和Palmer 的测试有效性模型继承了Messick 理论的精髓,即效度统一概念论。同时,他俩发展了现有效度理论,使原本抽象的效度概念更清晰、更具体化、更具备可操作性。特别值得一提的是,Bachman 与Palmer 的效度框架明确把考试影响度作为效度的组成部分,这既与Messick 提出的社会效应观念相呼应,又丰富其内涵,因而极大地提升了它在考试开发和设计中的可操作性。在Bachman 与Palmer(2010) 的最新框架即“测试使用论证模型”(assessment use argument) 中,impact 已融合进consequences,并成为每个论证环节的基础。

    Shohamy(2001:131)从另外一个角度审视考试效应,提出了评价性测试( critical testing) 的观点。评价性指的是某一考试本身要具备自身评价机制,以便更有效地检查考试用途和结果,监控考试的权力范围,减少考试的不利影响,保护考生利益等。根据Shohamy的观点(2001:133),评价性测试需要思考和回答以下问题:谁是考试出题者? 谁是考生? 为什么要考试?考试成绩如何使用? 哪些内容要考? 哪些内容为什么不考? 考试的基本价值是什么? 考试应使用哪些测试手段? 考试将提供哪些反馈? 考试会产生何种反拨效应? 对这些问题的思考有助于考试自身的完善,为提高考试的正面社会效应奠定良好基础。

    Kunnan (2000:1-14) 提出测试公平性概念( test fairness),并阐述了测试公平性与测试效度之间的关系。他认为,公平性包括validity(测试效度)、access(外部条件)和justice(社会公正)。外部条件包括考生和考场:①考生经济承受能力和均等学习机会;②考场所处位置、考场设施和施考条件。社会公正更关注考试的社会效应,比如某个考试项目能否促进社会公正。2005 年Kunnan (2005:781-791) 在原有基础上提出了一个新框架(the wider context framework)。该框架拓展了考试公平性定义,涉及考试所处社会的政治、经济、教育、社会与文化、技术、法律以及道德等领域。

    综上所述,随着测试理论研究视野的拓展,测试工作者的研究兴趣和研究问题也逐步超越考试分数本身。

    2.2 实际应用

    伴随着语言测试研究视野的拓宽,研究范式也在发生变化,越来越多的语言测试研究采用定性研究方法。Lumley 与Brown(2005:841)把这类研究方法归为三类:话语分析(discourse analysis)、口头描述分析(verbal report analysis) 和民族志研究法(ethnographic methods)。如前所述,Seliger 和Shohamy (1999) 把定性研究方法等同于民族志研究方法。McNamara(2005:777)把访谈、观察、话语分析法、内省法等归入民族志研究范式。综上所述,民族志研究方法有狭义和广义上的分类。Lumley 与Brown 的分类属于前者,而Seliger 和Shohamy 和McNamara 的分类属于后者。本文作者将采用后者的分类法,即指包含民族志相关研究理念和技术的研究。

    根据Lumley 和Brown 的观点(2005:845),民族志研究范式(比如观察法、访谈法等) 在语言测试中的使用最早出现在上世纪八、九十年代。当时,专门用途英语测试成为一个热点。为设计此类考试,研究人员需要了解专门用途英语考试的目标使用语域,通过实地观察、访谈和问卷调查等形式来确定某一领域内的语言使用特征。采集这类信息的过程就是后来广为使用的“需求分析”。之后,这些研究方法逐步进入语言测试研究领域,成为与传统定量分析方法相辅相成的重要研究工具。

    为此,笔者查阅了近五年国际知名语言测试刊物Language Testing 和Language Assessment Quarterly,发现近半数的论文采用民族志研究范式,或作为主要研究工具,或作为“混合研究范式”( mixed-methods approach)的组成部分;且研究问题涉及语言测试的各个环节。以下将概述该类方法在语言测试研究领域的价值和作用。

    从目标语能力域(target language ability domain)角度看,口语能力和写作能力研究是目前民族志研究方法使用较多的领域。口语能力和写作能力有相同之处,即两种能力都属于学习者的产出能力(或运用能力),与之对应的测试形式为“行为测试”( performance testing)。在这类测试中影响考生成绩的主要因素有考生能力、考官(评分员)、评分标准。因此,要对行为测试进行效度验证,不仅需要关注分数的稳定性(结果),而且需要了解评分员的决策特点(过程) 以及评分标准的制定等。比如,Ducasse 和Brown (2009:423-443)和May(2009:397-421) 分别采用有声思维法,探究考官/教师在评判双人口试(paired oral)时的认知思维过程,了解他们对考生间互动的评价维度。以上两个研究关注评分员的认知共性,而Zhang 和Elder(2011:31-50)的研究侧重不同语言背景评分员(英语为母语和英语为外语) 在口语能力构念认识上的差异。他们的研究方法之一是要求评分员在完成每一组口试评分后,记录各自的评分依据(即features of the oral proficiency construct)。研究者之后结合定量数据,对比不同评分员对口语能力构念的认识。Plough,Briggs 和Van Bonn(2010:235-260)等人采用类似的研究范式,分析美国一所大学使用的遴选研究生助教的口试评价标准。研究者也是在定量分析基础上(与研究生助教的听力和语音成绩做回归分析),通过阅读评分现场笔记和与资深评价者访谈,来进一步确定评价标准的主要观察维度。

    在写作能力测试方面,研究者也大都采用混合研究范式(包括民族志方法),聚焦评分员和评分标准。Baker(2012:225-248) 采用评分风格问卷和评分笔记方式(write-aloud protocol),研究不同评分风格模式。Knoch(2010:179-200)的研究对象也是评分员,只不过是一项历时研究。研究者通过跟踪19 位评分员,观察他们对八次考后评分质量反馈的回应,调查评分质量反馈是否会改变个人评分行为。Knoch (2009:275-304)还曾通过问卷和访谈,调查评分员对两种评分标准有效性的看法。上述两个研究的对象均为评分员,而Barkaroui(2010:54-74)则同时观察评分员和评分标准两个变量。评分员分为有阅卷经验和无阅卷经验;评分标准则分为整体评分标准和分项评分标准。研究者采用有声思维法,调查不同评分员在使用不同评分标准时的决策过程和决策关注点,以及两个变量在评分过程中的交互作用。有声思维法是评分过程研究的常用方法,Barkaroui(2011:51-75) 还发表了专门探讨有声思维法有效性的论文。研究者通过与评分员的事后交谈,了解他们对该方法和其作用的看法;然后通过对分数、有声思维和访谈内容的综合分析,来探索有声思维法本身对评分过程和结果的影响。

    近年来语言测试研究的一个热点是考试后效(test consequence)或反拨效应(washback)。鉴于该类研究关注各类考试相关利益群体( 教师、学生、教育管理者、家长) 或者课堂教学等,民族志研究方法是常见范式。有的研究以考试对教学影响为切入点。Munoz &Alvarez(2010:33-49) 通过15 个月的实验研究来观察哥伦比亚口语考试系统对外语课堂的影响。期间研究者采用多种方法收集数据:教师/学生问卷、课堂观察、外部评价等。除了外语课堂以外,考试后效研究还涉及考试对学校政策层面的影响。Shih(2010:234-254)的研究对象为台湾两所工科大学的应用外语系,研究方法包括与系主任和教师的访谈、查阅相关内部文件和记录等。如前所述,家长也是考试相关利益群体之一,因而有的研究将视角转向该群体。Cheng,Andrews和Yu(2011:221-249) 调查香港推行的校本测试评价机制的作用与后效,对象之一是学生家长。除了大规模考试后效研究之外,课堂测评也逐渐进入研究者视野。Huang(2012:60-77) 通过教师访谈和学生问卷调查,从两个不同侧面调查课堂测评和学习动机之间的关联。如前所述,大部分研究采用混合研究法,其中民族志方法(或质化方法)大都与定量方法相辅相成,成为各自的验证来源。然而,民族志研究法有时也可成为定量方法使用的基础。Xie 和Andrews(2013:49-70)试图通过建模来阐述考试设计、使用与备考过程的关系。他们首先设计两套问卷:一套针对研究对象对考试的认识(考试设计、用途),另一套涉及备考做法。第一套在备考阶段开始时完成,第二套在备考阶段临近尾声时发放。问卷调查结果作为研究者后续模型构建的数据。

    高质量测试题目的编制是良好效度和信度的重要保障之一。以往研究文献比较侧重理论探讨或考试规范的制订,关于如何撰写题目的文献少之又少。近年来这方面的研究也逐渐显现出这些研究关注编制过程,因此自然观察法就成为首选方法。Green 和Hawkey (2012:109-129) 采用收集工作笔记和讨论录音的方式,观察命题人员如何挑选和修改阅读测试材料。Kim 等人(2010:160-174) 运用案例分析方式研究命题过程。他们主要关注三个方面:命题人员对考试规范的认识和使用、命题小组的运作机制以及命题人员特点。研究数据的主要来源是命题人员的工作日志。

    话语分析是研究者解读决策或认知思维过程的有效手段之一,也可在广义上归入民族志研究方法。话语分析(通常为转写后的录音文本) 除了常用于研究学习者的口语能力特征之外(Lumley & Brown,2005:843),还运用于诸多其他研究之中。Sydorenko(2011:34-52)通过分析对话了解命题人员对题目难度预测的准确性,以及影响命题人判断的因素与影响题目实际难度因素之间的吻合性。Harding 等人(2011:108-126)分析他们与评分员进行的追溯性集体访谈,以发现评分员在使用评分指南评阅听力项目(记笔记任务) 时的决策过程以及决策类别。Pill 和Harding(2013:381-402) 关注语言测试专业知识的普及性问题,分析了澳大利亚下议院卫生与老龄委员会举行的有关外国医生执业登记的公开听证会录音稿,并在此基础上发现问题,即当事人缺乏应有的测试知识,比如,谁负责考试、谁做决策、如何建立测评程序等。另外,话语分析还可用于历时研究中。Plakans 和Burke(2013:115-134)花了两年半的时间,跟踪某所大学英语强化项目负责人和一位教师每次讨论学生入学英语考试成绩的过程,结果发现有四个因素影响考试用途和决策过程(考试成绩、学生、考试使用者和项目)。

    随着互联网技术在社会、经济、文化等领域的广泛使用,研究者们开始在调查研究中借助互联网优势。Fulcher(2012:113-132)采用网上问卷调查形式,了解语言教师对语言测试专业培训的需求,为改进语言测试教材和课程提供反馈信息。目前学校在录取、宣传和教学中常常使用水平测试成绩作为参考(比如雅思成绩),然而使用者本身是否具备测试专业知识,是否能够正确使用语言测试成绩,是语言测试相关研究领域的一个盲点。为此,O'Loughlin(2013:363-380)在互联网上调查了50 位教师并访谈了其中15 位,了解他们在工作中对测试专业知识的需求以及掌握程度等。Jeong(2013:345-362)采取相同网络方式调查了140 位教师并与其中13位进行了电话访谈。他的研究关注语言测试课程开设者的专业背景(接受过语言测试专业训练和来自其他相关研究领域),以及个人专业背景对课程内容及教学效果的影响。除了把互联网作为调查媒介之外,网络和媒体上的相关信息也成为研究来源之一。Chik 和Besser(2011:73-91)调查剑桥少儿英语考试在香港的社会影响。除了常用民族志研究方法(比如课堂观察、实地走访、访谈)之外,他们还多角度收集其他来源信息,力图更全面地描述其社会影响,其中一个重要信息来源是媒体。研究者查阅了2007 至2009 年间香港当地主要中英文报纸,并收集了有关剑桥少儿英语考试的报道(包括广告)。另一重要信息来源是网上家长论坛:研究者在2007 至2009 年之间跟踪了四个网上家长公共论坛,以原生态地收集家长关于入学、升学以及剑桥少儿英语考试备考等观点。

3 结语

    本文通过分析国外著名语言测试学术刊物的有关文章,试图勾勒出民族志研究方法在语言测试研究中的运用状况。由于篇幅有限,本文只侧重于近五年的研究文章,因而无法以一概全,难免有疏漏之处。尽管如此,从上述分析中我们还是能够归纳出以下几点。

    (1)上述研究均在相对自然的状态下收集第一手资料,研究者作为参与者介入研究过程。另外一个共同特征是研究均侧重多种数据的收集。这对验证基于数据的分析结果、提升研究成果的可信度、理论和应用价值具有重要作用。

    (2)民族志研究方法是语言测试人员了解过程、考试利益相关者的认识和做法、社会效应等的有效手段之一。方法使用涉及评分员认知研究、评分标准效度验证、考试社会/后效调查、题目编制过程探究、考试结果使用研究、语言测试知识普及程度和语言测试课程开设调查等。

    (3)民族志研究方法在语言测试领域中的应用呈现组合式的形式。相当一部分研究采用混合研究范式,即定量法+ 定性法(其中涵盖民族志研究理念和方法)、定性法+ 定量法。当然,部分研究综合使用多种定性/描述方法:问卷调查+ 课堂观察+ 深度访谈/外部评价、文本分析(包括录音、现场笔记、院系文件等) + 访谈、有声思维法+ 访谈、问卷调查+ 访谈等。方法的不同组合取决于研究目的和研究问题。也就是说,其有效性主要体现在方法使用的恰当性,而恰当性取决于研究目标、研究假设、研究手段之间的匹配程度。

    综上所述,民族志研究范式(其理念和方法) 已超越了原有研究范畴,融入了其他领域的研究范式,其中包括语言测试。在其成为常用的研究范式时,我们有必要了解该范式的起源、原则、方法等,以及在其他(特别是语言测试)领域里的应用。这样,我们才能够做到科学、有效地使用该研究方法。


编辑说明:文章来源于《外语电化教学》2014年第5期。文章和图片版权归原单位所有。篇幅原因,注释从略。

编      辑:李全敏 吴鹏 贾淑凤

编辑助理:王孟维


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多