了解研究效度的方法

yeez 2010-09-29

展开全文

研究设计中总要安排研究情境，控制相关的因素，以减少研究的误差。为此需要了解研究效度（research validity）及其影响因素。研究效度常用于定量研究，了解研究效度可以使我们细致地进行研究设计，更好地控制无关变量，使研究更趋完善。

一、研究效度的概念

从事任何研究，我们都期望研究是有效的，是基于事实的，是能够被证明的，这些就是研究的效度。研究效度是指研究的有效性和真实程度，是指研究结果的可靠性和普遍性，通俗的说就是一个测验如果能测出预期想要测量的能力或特质时，这个测验就是有效的，否则就是无效的。科学研究最怕的就是失去效度，尤其是实验研究。

研究效度涉及两个概念：内在效度（internal validity）和外在效度（external validity）。内在效度是指研究人员控制外部变量的程度，是指研究结果能否被明确解释的程度。内在效度通常要回答的问题是：研究结果是否真实可信？研究结果是否是由所操纵的自变量引起？外在效度是指研究结果的代表性和可推广程度，即研究结果能否被推广到更大范围的程度。外在效度通常要回答的问题是：研究结果是否具有代表性并能解释一般的情形？研究结果有多大的概括性？在类似情境中能否验证研究结果？

研究效度通常作为衡量研究质量水平的指标，研究设计也是以提高研究的内在效度和外在效度为基本目标的。要提高研究的效度，提高研究设计的水平，首先要了解威胁或影响研究内在效度及外在效度的因素，然后采取措施，设法排除或控制这些因素。

二、影响内在效度的因素

内在效度又称内部效度，是指研究结果的解释能力和可靠性，即研究结果是否完全归因于自变量的操纵，是否真实地反映了自变量和因变量的关系。

内在效度与无关变量的控制有关，一个研究能有效地控制研究条件，能清楚地解释研究结果，能合理地推论因果关系，这个研究的内在效度就高；反之，一个研究不能有效地控制研究条件，不能合理地推论因果关系，这个研究的内在效度就低。一般来说，除了研究变量以外，所有的可能影响研究结果的因素都是对内在效度的威胁。研究中最忌讳的就是变量混淆，以至于无法解释研究结果。影响研究内在效度的因素很多，最经典的概括是坎贝尔和斯坦利1963年提出的影响研究内在效度的8个因素[①]，以及1979年库克和坎贝尔加以补充的一些因素[②]。综合起来有以下一些：

1、偶然事件（History）

偶然事件也有人译为“历史”，指研究过程中发生的，没有预料到的，会影响研究结果的因素。例如，研究者采用问卷调查学生对学校生活的满意程度，但实施调查时正逢学校校庆周，一系列的校庆活动使学校生活变得丰富多彩，因此在回答问卷时就有可能获得偏向满意方向的答案。这类的事件，研究者应予密切关注。

由于这类事件难以事先估计，防不胜防，通常可以在研究设计时，设置一个对照组加以控制，使偶然事件的效力对两个组的影响均等。如，用一种新的教学方法对某一班级进行一年的实验，由于在这一年中学生除了在课堂教学中学到了一些知识，可能还从课外吸收许多知识，会经历学校各种各样的活动，设置一个经历相同的对照组，可以控制偶然事件的影响。

2、成熟的过程 (Maturation)

成熟是指在研究过程中被试生理或心理方面发生的变化。教育研究的对象通常是学生，是成长中的个体，在研究周期比较长的研究中，其身心状况可能会发生改变，这种改变对学生的学习会产生影响，有时能促进学业成绩，像认知能力的发展与成熟，体能更强壮，更自信或更独立。如，对初一新生进行逻辑思维的测验，然后进行有关的训练，三年后再进行逻辑思维的测验发现学生逻辑思维能力增强了，但是这种增强是来自于逻辑思维能力训练呢？还是来自学生三年来自身的成熟？或是逻辑思维能力训练与成熟的共同作用？

成熟有时则会对学业成绩起消极作用，如饥饿、疲劳等。有人研究语言习得的关键期效应，分别用成人组、12-15岁组、8-10岁组、3-5岁组四个组进行实验，最后测试时间长达一个半小时。无论结果如何，让后两组参加这样长时间的测试是不合适的，他们的成绩会受测试疲劳的影响。总之，凡涉及时间较长的研究，都会受到被试自身成熟过程的影响。尤其是年龄小的被试在成熟问题上，反应更明显。控制的方法可以设置对照组，或缩短研究时间的周期。

3、前测效应(Testing)

前测效应是指有前测的经历会对后测的效果造成影响，有人称之为练习效应或热身效应。凡是有前后测设计的研究，被试有了前测的经验，会有利于后测的作答。因此，这种后测分数比前测分数高的现象未必就是研究的本身的效果，有可能来自被试对测验内容或形式的了解和熟悉，来自于对前测的敏感。尤其是在能力、成就、情感、态度等方面的测试，前测效应更为明显。一般来说，当研究者有理由怀疑前测会对研究结果造成影响，或者前测很花费时间和经费，那么最好避免采用前后测设计，仅采用后测设计。

4、测量工具 (Instrumentation)

指测量手段不统一产生的负面效果。如果用来测量研究结果的工具，在前测与后测中所用的内容、难度都不一样，就难以确定研究结果的最终效果。如一位老师进行教改实验，上一学期自己命题进行期终考试，班级学生平均分为75分；这一学期他又自己命题进行期终考试，班级学生平均分为80分。表面上这学期比上学期平均分提高了5分，但很难说这增长的分数一定归功于教改的效果。因为两次测验的内容和难度不一样，上学期考的是上学期的内容，这学期考的是这学期的内容，没有可比性；也可能由于这学期考试题比上一学期的试题更容易些。

另外，考试测验的程序、标准、时间等也不同，都会影响测验结果。如两位主考人对同一教学实验进行后测，但所用的测量工具不统一，所用的标准和方法也不一致，最后导致测验结果的差异。

5、统计回归 (Statistical regression)

统计回归是指多次测量研究对象时出现的一种倾向，即对一个变量进行测试时，他们的分数出现两极分化，但当再次进行同样的测试时，他们的分数更接近于平均数。如选择研究对象时，录用测量中获极端分值段的被试。假如我们选择60分左右的被试，再次测验的分数可能会高于第一次测验的分数。同样道理，如果我们选择90分左右的被试，再次测验的分数可能会低于第一次测验的分数，原因可能就是统计回归。统计回归的基本原理如同政治经济学中的有关价格和价值的关系，即价格是围绕着价值这根中轴上下波动，当价格离价值中轴太远了，就有向价值中轴回归的趋向。如图

回归趋势

价值

价格

回归趋势回归趋势

图8-1 统计回归示意图

在研究过程中，如果以测验成绩为基础来选择被试，选择测验成绩较高或较低的为样本，在实施后测时就会受到统计回归的影响。假设进行一项数学教学方法改革的实验研究，通过测量选择数学学习成绩很差的学生为被试，可以设想，他们可能会有怎样的结局？他们原有的数学水平如此之低，通常只是在教室陪练，他们已经不太可能变得更糟了，已经到了学习的底部，跌不动了，而向平均数回归的机会往往要大于再往下跌的可能。同样道理，如果选择的对象都是学习成绩90分以上的学生，最后考试成绩往下降的可能性要大于往上升。所以统计学家经常举例告诫，身材非常高大的父母，他们子女的身高可能比他们矮；而身材非常矮小的父母，他们子女的身高可能比他们高。

统计回归的威胁主要是所选择的被试处于极端的位置，随后测量他们发生的变化会让人误判为实验处理的效果。实验设计中要避免选择测试特别好的或特别差的被试，因此选择被试要随机化，要有代表性。

6、被试选择的偏差 (Selection biases)

当必须采用两组被试进行比较研究，如果这两组被试的能力、特质、条件、背景等因素不相同，那么就会导致测验结果的差异，从而混淆研究的效果。如某学校在三年级两个班进行教改对比实验，实验班本来就是一个高分录取的高才生班，对照班则是普通水平的班。加上实验班配备有经验的优秀教师，对照班则是一般的教师。这样的比较研究没有实际意义，两组根本没有可比性。控制样本偏差的措施是随机抽样，随机分组、随机分配实验处理，尽可能使实验组和对照组除了在实验处理上的不同外，在其他各种条件上做到均等、相似。

7、实验样本的流失 (Experimental mortality)

实验样本的流失有的翻译为实验的偶然减员，是指在研究期间有些被试缺席或中途退出，以致前测与后测人数不符，样本失去代表性，而影响统计分析的结论。如，在一项判断运动效果的健康实验中，部分被试感到这项运动难度太大而中途退出。由于这部分被试都属于某一特征的被试，可能是很少参加运动的学生或运动技能比较差的学生，去掉这部分学生，会对最后研究的统计结果产生影响。一般，流失的被试是在前测中成绩较差者，则样本后测的平均成绩会提高；反之，流失的被试是在前测中成绩较好者，则样本后测的平均成绩会降低。

8、选择与成熟的交互作用 (Interactions of selection and maturation)

研究中最忌讳的是变量的混淆，各种因素互相干扰，互相作用，以至于无法确切解释自变量和因变量之间的关系。在研究设计中，由于被选取的两组被试具有不同的能力、特质、条件，导致对以上各个因素产生不同的作用，从而影响研究结果。如，对两所学校学生进行课程改革的研究，由于两所学校入学政策不同，因此具有较好的家庭社会经济背景的学校，可能在认知能力的发展与成熟方面要比较差社会经济背景的学校在后测中更易获得好成绩。这就是选择与成熟的交互作用。又如，进行教学方法的比较实验，实验组的平均年龄比对照组大6个月（选择与成熟），因此在学业成绩方面的各种差异都可能归因于学生年龄差异的影响，而不是教学方法的效果。

9、因果方向不明 (Ambiguity about the direction of causal inference)

在研究中分不清自变量和因变量的研究不多见，但有时由于研究设计的不确切，导致在两个变量之间很难确定谁是因，谁是果，这种现象在相关性研究中尤为普遍。一旦因果关系不明，对研究结论的解释就会受到挑战。如，探讨教师期望与学生学业成绩的关系时，如果设计不明确，可能很难由研究结果断言是教师期望影响学生学业成绩。或许真实情景是学生学业成绩影响教师的期望水平。

又如，据调查，学生的侵犯性行为与喜欢看暴力电视有较高的相关，但究竟是看暴力电视导致侵犯性行为增加，还是具有较高侵犯性行为的学生更喜欢看暴力电视。这些都需要做进一步的因果研究设计来探讨其中的方向关系。有较高的相关不一定具有因果关系，但具有因果关系必定有很高的相关。

10、实验处理的扩散 (Diffusion of treatments)

有时在实验研究中，实验组与对照组互相沟通，导致主试或被试有可能把实验处理传递给对照组，对照组可能会有意无意的模仿、运用、吸收，产生与实验处理相符的行为和活动，产生与实验组相同的结果。这种实验处理扩散的结果就是：实验处理的效果会被抵消。为了避免实验处理的扩散，应尽量将实验组与对照组的接触降到最低限度。

11、补偿性均等 (Compensatory equalization of treatments)

在现场的教学实验研究中，实验处理往往是向实验组被试提供较好的学习机会，提供具有吸引力的材料（如采用多媒体教学，或试验新教材），而对照组被试经常要被剥夺某种好的学习机会或被认为有价值的东西，以配合实验组。但是从教育伦理角度考虑，这样做对某些学生不公平，学生的学习和发展机会应该均等。因此，有时校方或行政管理人员会为他们提供有益于学习的活动或资源，作为某种补偿，以示均等。这种做法，将使对照组被试也有良好的学习表现，从而导致实验效果的混淆。

12、补偿性的竞争（Compensatory rivalry）

补偿性的竞争指对照组被试在与实验组竞争时，表现出超常努力的现象。海尼奇于1970年在评论电视教学与课堂常规教学的研究时，把这种现象命名为约翰.亨利效应。传说有一名叫约翰.亨利的黑人铁路工人是位打道钉能手，为了与刚引进的蒸汽打道钉机抗争，以维持职业和地位，所以拼命以他的体力和技巧手工打道钉，想把蒸汽打道钉机给拼掉。最后却耗尽体力而死。

补偿性的竞争这种现象在教育研究情景中常会发生。如在新的教学方法与旧的教学方法比较研究中，对照组被试往往会把实验情景看作一种竞争或威胁，或者由于没有作为实验组心里不服气，从而加倍努力，以证明自己能力不亚于实验组。结果造成无法确定教学实验效果。

13、自暴自弃（Demoralization）

自暴自弃是指被试由于得知未被选为实验组产生的怨恨，并且故意怠工，失去自信心，表现比平时差，自甘堕落的现象。这样会导致实验处理效果突显，但这种实验效果未必真实可靠。

以上提到的13种因素，都会对研究的内在效度产生影响。事实上，内在效度就是指研究结论有没有准确地反映研究内容本身。只要研究内容以外的因素影响了因变量，就会威胁研究的内在效度，就会导致研究结果的混淆。因此，在研究设计时对以上这些因素要认真考虑，对可能产生影响的因素要设法加以控制。一般来说，随机分配、设对照组、前测和后测的安排都是研究设计需要着重考虑的关键因素。

三、影响外在效度的因素

外在效度(external validity)是指研究结果的代表性或普遍性。具体说来，就是指研究结果是否可以推广到类似情景中去的程度。如果能在实际研究以外的更大范围获得相似的结果，研究的外在效度就高，研究结果的解释与推论范围越广，研究的外在效度越高；如果一个研究在相似的情景中难以重复，研究结果不能推广运用到现实世界，那么，这个研究的外在效度就低。

影响研究外在效度的因素很多，经典的是坎贝尔（D.T.Campbell）与斯坦利（J.C.Stanley）提出的4个影响外在效度的因素：前测与实验处理的交互作用；选择偏差与实验处理的交互作用；实验安排的反作用；多重实验处理的干扰。

以上4个因素都是干扰因子与实验处理结合才产生作用，导致实验结果不能类推到相似情境中去。后经布莱切（G.H.Bracht）与格拉斯（G.V.Glass）将外在效度分为总体效度（population validity）和生态效度（ecological validity）两类，并加以扩充成以下一些影响因素[③]。

1、取样的偏差

由于抽样范围的限制，样本不具有代表性，无法将研究结果类推到样本以外的人群，从而影响研究的外在效度。例如，要从事一项有关上海市中学生道德发展的研究，但样本仅从上海几所重点中学抽取，这样的研究结果只能代表重点中学学生的道德发展情况，不能代表一般中学学生的道德发展情况。由于样本有偏差，研究结果就难以推论整个上海市中学生的道德发展的普遍状况。因此，为了使研究结果具有可推广性，研究设计时应考虑样本与总体的同质性和代表性，避免抽样的偏差。

样本必须要有一定的量才会有足够的代表性。对有些研究来说要找到足够的被试并不容易，尤其是周期比较长的研究，要占用被试许多时间。为了获得被试，有些研究要给被试一定的报酬，有些研究招收自愿者。当然，自愿者作为被试有时会使样本失去一部分代表性，影响研究结果的外推能力，影响研究的外在效度。

2、被试与实验处理的交互作用

只要研究对象是人，就会具有个别差异。由于每个人的特质不同，对于实验处理的反应也会不一样。交互作用就是不同变量之间的影响相互不一致。例如，智力水平比较高的学生喜欢讨论式教学，智力水平较低的学生则喜欢传统式的讲授式教学。在一个常规班级（既有智力高的学生，也有智力低的学生）进行实验，由于学生特质（智力程度）与实验处理（讨论式教学）具有交互作用，对智力高的学生更有效，因此在解释实验结果时，不可将样本当作一个“整体”来说明。当实验被试与实验处理具有交互作用时，用样本推论总体就受到限制，研究结果可能只适用于解释总体中的某一种特征的人，而不适用于总体中的全部成员。因此，在研究设计中要关注总体中各层次的差异，要考虑研究结果能否解释总体中的各个层次。

3、研究变量与情景的叙述不清

外在效度关心的一个问题是：研究结果会不会因环境的不同而变化，在研究情景中表现出的效果是否会在一般情景中再现，换句话说，就是能否“复制”。任何研究均需界定研究变量，并说明研究情景，给人以操作的程序和测量的标准。如果研究变量没有明确界定，研究情景也不交代清楚，他人便无法知晓研究的程序和方法，也无法了解研究结果的真实性和适用范围，研究的推广解释就会受到限制。因此，研究设计过程中，必须界定研究变量，下操作性定义，规定研究的情景和条件。

4、重复测验的干扰

重复测验的干扰是指前测对后测的影响或交互作用，前测的内容或程序可能会引起被试的对某些论题或事物的注意和敏感，往往会影响后测的成绩。例如，研究人员想了解学生经过思想品德教育后思想认识和态度的变化。学习前，先进行思想认识和态度的测验，经过两周的集中学习后，再用相似内容测学生的思想认识和态度，结果发现测验成绩有变化。这种变化可能来自于两周的思想品德教育，也可能来自前测所产生的敏感效应，还可能来自思想品德教育与前测敏感的共同作用，这些可能性给研究结果的推论带来了麻烦。因此，当估计前测会对后测造成影响，研究设计应尽可能避免采用有前测的设计，无论这种影响是积极的还是消极的。

5、实验安排的反作用

实验安排的反作用是指由于实验情境的安排，被试知道自己正在被观察或正在接受实验处理而产生的一种实验效应（霍桑效应）。被试往往会投实验者之所好，改变自己原来的常态行为，表现更积极，更努力，提供实验者所期望的行为。这样往往会对实验效果的推论造成影响。例如，当学生知道自己所在班级为实验班，正在进行一种新的教学方法的实验，因此在实验过程中全班学生表现比平时更积极、更主动，情绪高涨，干劲倍增，结果造成实验效果无法确定是来自新的教学方法，还是来自学生的积极投入，或者是两者的结合。因此，在研究设计时，最好不让被试知道各自扮演的角色，采用盲法控制。或设对照组，并宣布两个组都为实验组，让实验效应互相抵消。

6、新颖的干扰

由于实验情景是经过特别安排的，其内容、程序、步骤、环境等都可能给被试带来新奇感，由此会激发被试的参与热情，进而促使实验效果的提高。例如，参加某项课堂教学实验的学生会有某种优越感，他们可能对实施的新的教学方法好奇，感到新鲜，因而特别投入，主动参与。这种非常态的实验情景与真实情景的差异，会对实验结果的推论和解释造成麻烦。因此，在研究设计中始终要考虑研究情景的生态效应，尽可能保持实验情景与非实验情景的一致性程度，以提高研究结果推论的合理性和解释的适切性。

7、实验者效应

实验者效应指在实验情景中，实验者或主试的行为、外表对被试行为的影响。实验者或主试的仪表容貌、言语风格、性格特征、行为习惯等，会潜移默化、无意间影响被试的行为表现，这种影响会导致研究结果不能推广到不同实验者的其他同类研究中去。如主试的面部表情、语音语调、口头暗示或鼓励、对被试的期望等，都有可能促成被试所做出的行为反应与平时不同。另外，主试的年龄、性别、种族、身高等，也可能影响或改变被试的行为。在观察研究中，观察者也有类似的影响作用。在化学实验室里，不管研究者如何对试管捶胸顿足，化学反应照旧，不受影响。但在以学生为对象的教育实验中，只要有“他人”在场，被试的行为就有可能改变。因此，在研究设计中，应考虑避免实验者效应。

8、特殊事件的影响

在研究期间可能会发生许多意想不到的事，这些事是事先无法估计到，但是却会影响研究的结果。如果将这样的研究结果去推论解释一般情况下，无类似特殊事件时，则类推结果就会受到一定的限制。因为我们无法证明会发生同样的特殊事件。正如，没有两个人是完全相似一样，每个人的经历、时空条件或多或少都有差异，有些差异的来源我们可以分析，有些我们根本就没有认识到。因此，在研究设计时，要充分考虑研究条件的相似性和可重复性，尽可能缩短实验的周期，减少特殊事件可能的干扰。

9、因变量的测量

因变量的测量是研究结果的依据，因此因变量的操作性定义和测量工具成了决定研究结果的关键因素。通常研究者都会以多种指标来界定因变量，并且在各种相关的测量工具中选择合适的进行测量。然而，这些指标及测量工具在非研究的一般情景中未必都能被了解或采纳。因此，研究结果的普遍性就受到限制。

另外，不同的收集数据的方法反映了看问题的不同角度，同时也影响到数据所反映的现象的不同方面，对形成研究结果也会有影响。例如，有研究者想验证语言习得的关键期，是否青春期以后学习第二语言，他们的语音永远达不到讲本族语的人的水平[④]。为了验证这一假设，欧亚玛（Oyama）与非本族语者谈话，录下谈话片段，放给本族人听，让他们判断是否发音地道，有没有外国腔。而奥尔圣（Olson）和塞缪尔斯（Samuels）则把非本族语者放在语言实验室里进行语音测验，让他们发出各种语音序列。如此不同的收集数据的方法，给予研究者的启示也一定相差甚远。我们可以反问：他们研究的是同一个假设吗？当然方法不对就会失去研究的外在效度。

10、时间效应（the effect of time）

任何实验必须要有后测，研究结果只有通过后测才能显现。但是有些实验处理的效果是隐晦或不完整的，有些结果具有即时性，只有在实验后立即实施后测才能显示效果。通常实验研究均在实验处理之后立即测量实验效果，但此时所测得的效果，有时因变量还没有来得及发生变化。另一方面，也有这样的可能性，实验效果产生很快，即刻效应明显。较长时间后，效应未必存在或保持不变。例如，英语考试前二周集中复习，立即测试，发现学生英语水平提高很快，效果明显。但随考试时间的延长，学生考试成绩会下降。因此，如以实验后所测得的效果来推论一般情景中的可能效果，由于测量效果的时间不同，推论的精确性也就受到限制。

四、内在效度与外在效度的关系

以上罗列并说明了影响研究效度的种种因素，目的是为完善研究设计提供思考框架，为进一步控制研究条件，排除无关变量的干扰提供参考依据。虽然将研究效度划分为内在效度和外在效度，并且细分为二十几项影响研究效度的具体因素，但是，所有的影响因素不可能在一项研究中集中出现，各种因素之间是彼此关联，互相影响的。我们在进行研究设计的过程中，需要认真考虑每一个因素的可能影响，提出如何加以控制的策略。只有这样，才能使研究设计更周全、合理，研究结果更精确、可靠，研究结论更可信、更具有普遍意义。

效度是研究设计必须考虑的问题。效度只是程度上的问题，是高与低的问题。效度不会全有或全无。内在效度是研究设计的基本要求，是研究质量的根本保证，是外在效度的先决条件。没有内在效度便无所谓外在效度，因为一个研究本身不科学、不精确，内在效度很低，即使它再容易推广、再现，外在效度再高，也不能正确解释问题现象，也不可能有什么实际意义。一般来说，内在效度越充分，结果的可推广度越大，研究也越有价值。正如有位科学家的名言：知道原因的失败，优于不知道原因的成功。

内在效度的目的在于排除另类的解释，使研究变量关系纯化、凸现，能经得起重复、验证。只有这样，最终的研究结果才能被大家所接受。研究设计时，研究者本人应该确定自己研究的内在效度，在确保研究最基本的内在效度的基础上，考虑研究的外在效度，即在保证研究科学性的前提下，考虑研究的可推广性。

当然在强调研究内在效度的同时，也不应该忽视研究的外在效度。我们希望研究能构建新的理论，能贡献新的知识，能为科研宝库添砖加瓦。要使研究结果形成放之四海而皆准的理论，首先要看这个研究是否具有内在效度，其次考虑外在效度，即研究结果是否能推广到其它相似情境中去。

但是，内在效度高的研究不一定具有较高的外在效度，有时二者往往难以都得到充分满足。往往确保了一种效度，就会削弱另一种效度。例如，为了控制性别差异可能对实验结果的影响，只选取男生或女生作为被试，这个实验的内在效度提高了，但实验的外在效度却受到损失，即实验结果难以推广到不同性别的群体中去，结论的普适性降低了。又如，在现场自然情境中进行一项实验，虽然能较好地适应现实情境（具有较好的外在效度），也便于推广运用，但受实验条件限制，无法像实验室实验那样充分控制无关变量，实验的内在效度降低了。为此，在研究设计中要综合考虑内在效度和外在效度的平衡，在保证实验结果可靠性的基础上，尽可能使研究获得更大的推广能力。

五、提高研究效度的措施

研究设计的基本目的有二：一是为研究问题提供答案；二是控制差异，主要是控制来自被试的差异和来自外部环境的差异。控制差异说到底就是提高研究的内在效度，在研究设计过程中可以采用以下一些控制方法提高研究效度：

1、随机化控制

随机化是研究设计的基本原则。正如买彩票，抽奖等都是通过随机化形式进行，因为这样对每一个人都是公平的，每一注彩票中奖的概率和机会是均等的。在研究设计中采用随机化程序可以避免许多无关变量，通过随机化可以将被试间的差异减小到最低限度，可以保证逻辑上的合理均等，可以提高研究结果的内在效度和外在效度。

研究设计中的随机化指对被试差异的控制，具体指随机抽取被试；随机分组；随机分派实验处理：

（一）随机抽取被试

在总体中随机抽取被试，具体方法有（参见第七章有关抽样方法的内容）：

（1）简单随机抽样

（2）系统随机抽样

（3）分层随机抽样

（4）整群随机抽样

（二）随机分组

随机分组即随机确定实验组与对照组，具体方法有：

（1）完全随机设计

完全随机设计又称随机分组法，使用随机化的方法，随机分配被试给实验组和控制组。从理论上说，每个组被试之间无差异。完全随机设计是一种比较方便的配组方法，无需事先测试，适用被试较多，个体差异不大的情况。

（2）随机区组设计

随机区组设计是事先对被试进行测试，根据测试成绩将被试分成若干个同质的区组，然后将每个区组内的被试随机分配给实验组和控制组。这种设计以测验成绩为依据，再进行配组，可以保证实验组与控制组所处水平基本相同，精确程度比完全随机设计要高。

例如，要将60个被试分成各为30人的实验组和控制组，随机区组设计的具体步骤是：先进行一次测验；按测验成绩高低排列；接着按排列顺序分组；检验各组平均数、标准差；最后随机确定哪个组为实验组，哪个组为控制组。配组过程见图8-2。

随机分配

三个区组 4 配组结果

8 30 实验组

60 36

测验 18

16 30 控制组

图8-2 随机区组设计配组示意图

（3）被试间设计

被试间设计又称非重复测量设计，指把不同的被试随机分配到不同的组里（实验组和控制组），各自接受各自的实验处理，即每个被试只接受一种实验处理，互不交叉。被试间设计模式见下图8-3。

实验处理1（X₁）实验处理2(X₂)

S₁S₂

S₃ S₄

S₅ S₆

S₇ S₈

. .

实验组1 实验组2

图8-3 被试间设计模式图

从图中可以看出，接受实验处理1的被试就不会接受实验处理2；接受实验处理2的被试也不会接受实验处理1，两组被试互相不干扰。被试间设计比较安全，两种或多种实验处理之间不会通过被试相互“污染”，实验条件互不干扰，但是不同组之间被试的差异控制得不够理想，因此采用这种设计时，应使两组被试尽可能相似，一般用随机化或配对分组。

（4）被试内设计

被试内设计又称重复测量设计，指把相同的被试分配到不同的实验条件中去，接受不同的实验处理，即每个被试均接受整个实验的各种处理。被试内设计模式见图8-4。

实验处理1（X₁）实验处理2(X₂)

S₁S₁

S₂ S₂

S₃ S₃

S₄ S₄

S₅ S₅

S₆ S₆

S₇ S₇

S₈ S₈

. .

实验组1 实验组2

图8-4 被试内设计模式图

从图中可以看到，每个被试既接受实验处理1，也接受实验处理2。被试内设计效率比较高，每个被试在不同实验条件下与自身前后状态相比较，不需要分组，不需要很多被试，并且可控制被试个别差异对实验结果的影响。但很可能产生实验处理的“污染”，两种或多种实验条件互相影响。采用被试内设计是有条件的，即先实施的实验处理对后实施的实验处理不会有长期的影响。如实验处理为学习、记忆效应等，就不能使用被试内设计。一般在被试个体差异比较大的情况下，宜选用被试内设计，当实验处理可能造成多重处理“污染”时，应采用被试间设计。

（5）配对组设计

配对组设计是指在实验自变量介入之前，通过测量将条件一致的被试一对一配对，然后再随机地分配给实验组和控制组。通常的做法是对全部被试进行测试，测试性质和内容与实验性质和内容相似或相关，然后按测试成绩排列，将相同分数或分数接近的被试配对，并形成等组，最后随机确定实验组和控制组。

例如，要研究两种不同的教学方法对学习效果的影响，研究者采用现场实验，随机抽取甲乙两个平行班，先对这两个班进行测验，然后将两班中成绩相同的学生配对，甲班的70分对乙班的70分，甲班的83分对乙班的83分等，最后再随机决定甲乙两班哪个班为实验组，哪个班为控制组。没有配上对的学生与配对的学生一样跟班接受实验处理，只是在两班实验结果统计时不把他们的成绩计算在内，仅统计配上对的学生的成绩。

配对组设计的目的是为了严格控制两组被试的个别差异可能对实验结果的影响，尽力使两组被试达到同质。但是配对往往只是某个变量、某个方面相同，很难找到几个变量、几个方面都匹配完好的被试。

（三）随机分派实验处理

随机分派实验处理即随机决定哪个组接受什么样的实验处理。具体可以从以下几个方面考虑：

1、随机化控制

随机化指被试的选择、分组、实验处理的分配采用纯粹的机遇选择来控制无关变量，例如，用简单随机抽样从总体中抽取100个被试，然后将这100个被试用抽签的方式随机分配到实验组和对照组，每组50人，由同一教师采用两种不同的教学方法（自变量）进行教学实验，至于哪个组为实验组，哪个组为对照组，可以通过投掷分币随机确定。

2、设对照组控制

除了随机化，设对照组（控制组）也是一种提高研究内在效度的简便方法。实验组与对照组所有条件相同，唯一区别在于实验组接受实验处理，而对照组没有接受实验处理，或者实验组和对照组分别接受不同的实验处理。设对照组通过组与组的对比，可以清楚说明研究结果，提高研究结果的内在效度。

设对照组在教育实验设计中被广泛采用，因为其组织形式简单，因果关系明了，易为他人理解和接受。

3、对外部情境的控制

实验研究通常要探讨的是自变量和因变量之间的关系，要解释自变量和因变量的关系必须排除无关变量对研究造成的干扰。很多无关变量来自研究的外部因素，因此在研究设计时对外部情境的控制显得格外重要。对外部情境的控制通常有：消除法、平衡法、恒定法等。

消除法指设法将无关变量排除在实验之外，不让它参与到实验过程中来。如，性别可能回影响因变量的测定，那么被试的选择可以都选男性或都选女性。又如，在暗室、隔音室内进行视听感觉的实验，这样可以消除外界光线、噪声对视听感觉的干扰。

平衡法要求将无关变量的影响平均分配到实验组和对照组中去，使各组之间的差异尽可能相等。如，等组实验就是按平衡原理设计的，两个组除实验处理不同外，其余条件均相等，做到两组基本同质，这样情境的一致性可以控制许多来自实验外部的无关变量。

恒定法指设法将某些因素在实验中保持恒常不变，或将某个变量变为常量加以控制，使某个无关变量的影响在实验前后保持不变。如，要对某种教学方法的效果进行比较研究，为了防止教师水平不同而给教学效果造成影响，可由同一位教师担任实验班和对照班的教学，使教师这一变量恒定不变，使教师水平这一变量成为常量。另外所用教学时间也可以使其恒常不变，即实验班和对照班均采用相等的时间进行教学，布置相同的作业练习等。

4、对人为因素的控制

研究设计中还必须考虑人为因素对研究结果造成的影响，如被试知道自己参与实验或了解实验真实意图而可能作出的反常行为，表现出情绪高涨、加倍努力，或投研究者所好而行事，从而影响实验结果的可靠性。同样，当主试了解哪些被试接受实验处理，哪些被试未接受实验处理，常会有意无意地给予某些暗示，赋予某种期望，从而影响实验结果的客观性。

对人为因素的控制可以采用盲法。盲法有单盲和双盲之分，单盲指被试不知道自己在参与实验或正在接受某种实验处理，双盲指主试和被试均不知道自己在参与实验，不知道研究的目的或意图，不知道谁接受谁没有接受实验处理。盲法控制的目的就是要排除主试和被试主观态度对实验结果造成的影响，以便准确地研究实验处理的真实效应。

5、研究设计模式的控制

在实验中人们常常用不同的研究设计模式来控制无关变量。不同的实验模式是针对特定的无关变量控制而设计的，每一种实验模式都有自己特定的控制条件。常用的研究设计模式有：单组后测设计、单组前后测设计、固定组后测设计、固定组前后测设计、等组后测设计、等组前后测设计、所罗门四组设计等（实验设计模式的具体内容可查阅有关实验研究方法的书）。

提高研究结果的外在效度，取决于研究设计的合理性、精确性，取决于被试取样的代表性，以及使实验情境与教育教学情景尽可能的一致性。对外在效度的检验通常在研究实施以后，可采用以下一些方法：由其他研究者通过重复来验证；以实际效果来验证；用元分析的互证来验证；与其他研究成果比较来验证。

六、质的研究的效度问题

以上是从定量研究设计的角度来探讨研究的效度问题。效度指的是研究的准确性程度和可靠性程度，效度高意味着研究结果能显示研究所要测量对象的真实性。

在质的研究中，研究者对“效度”这一概念普遍存在争议。通常将质的研究中的“效度”看作是一种“关系”，即研究结果与研究其他部分之间的一种“一致性”。质的研究的效度所表达的关系是相对的，不是一种绝对的“真实有效性”[⑤]。对质的研究效度的检验，按照马克斯威尔（Maxwell）的分类可以分为以下五类[⑥]：

（1）描述型效度

描述型效度指对可观察到的现象或事物进行描述的准确程度。

（2）解释型效度

解释型效度指研究者了解、理解和再现被研究者意义的“确切”程度。

（3）理论效度

理论效度又称诠释效度，是指研究所依据的理论以及从研究结果中建立起来的理论是否真实地反映了所研究的现象。

（4）推论效度

推论效度指研究结果代表样本的情况并在样本所包含的时空范围内进行合理推论的程度。

（5）评价效度

评价效度指研究者对研究结果所作的价值判断是否确切。

七、控制研究误差

研究效度是研究可靠性的重要指标。无论采用什么研究方法，在研究情景中始终存在许多影响研究效度的因素。这些因素都可能产生研究误差，可能导致研究结果不可靠。因此研究设计的一项重要任务，就是要控制研究误差，提高研究结果的可靠程度。

从研究误差的来源来看，误差有两种：随机误差（random error）和系统误差（systematic error）。随机误差是不明因素造成的，没有固定的方向，研究者也很难预料。如重复测量每次结果未必都一样，有时会高些，有时会低些。对于这些误差可以置之不理。系统误差则是由于可辨识的因素造成，具有错误方向的，是研究者必须加以控制和克服的误差。系统误差的来源主要有以下一些[⑦]：

1、研究者的误差

研究者本身的条件、特质、以及在研究过程中的行为表现，常会影响研究结果，成为研究误差的来源。如：研究者的期望（皮格马力翁效应pygmalion effect）；观察的偏差；研究者个人的特征等。

2、被试的误差

由于被试不具有代表性，或者被试在研究情景中的表现与平时不同，导致研究结果不真实，因此形成研究误差。如：霍桑效应（Hawthorne effect）；角色知觉；评价的恐惧；未接受实验处理者的反应。

3、研究程序的误差

研究程序的误差指资料收集及分析阶段，由于实施程序的不当所产生的系统错误。如：取样的误差；情境的误差；时间的误差；统计的误差。

4、研究工具的误差

研究工具的误差来自两方面，一是工具本身的性能不佳；二是使用工具的方法不当。研究工具的使用必须符合两个原则：一是要是用“适当的”工具；二是要“适当地”使用工具。一般而言，一个完备的测量工具必须具有适当的信度、效度、常模、以及实施说明，缺乏信度、效度的测量工具不可靠，缺乏常模的测量工具不宜解释，缺乏实施说明的测量工具难于标准化，如采用有缺失的测量工具，就会产生研究误差。另外，每一种测量工具都有其适用的对象与范围，若在使用中超越其对象和范围，也会产生研究误差。

王重鸣？

[①] D. T. Campbell & J. C. Stanley (1963), Experimental and Quasi-Experimental Designs for Research. p.5.

[②] T. D. Cook & D. T. Campbell(1979), Quasi-Experimentation: Design and Analysis Issues for Field Settings. Boston: Houghton Mifflin Company, p.51.

[③] 转引自吴明清：《教育研究：基本观念与方法分析》五南图书出版公司，1991年，第248-251页

[④] 刘润清：《外语教学中的科研方法》外语教学与研究出版社，1999年，第229页。

[⑤] 陈向明：《教师如何作质的研究》教育科学出版社，2001年，第242-243页。

[⑥] 陈向明：《质的研究方法与社会科学研究》教育科学出版社，2000年，第391页。

[⑦] 转引自吴明清：《教育研究：基本观念与方法分析》五南图书出版公司，1991年，第277-283页