心理学实验研究的信度
实验研究的信度
实验信度是指实验结论的可靠性和前后一致性程度。实验结果的可靠性可以 简单归结为:如果再重复实验,其结果会与第一次相同吗?这在心理学研究中是 一个关系重大的问题,它涉及到实验研究的可验证性。如果我们没有理由证明所 得出的实验结果是可信的,那么研究将毫无价值。
决定实验信度的一个关键是观察量。观察量越大,我们就越有理由相信样 本统计值接近总体参数值,也就是样本更能够代表其所在的总体。例如在我国 随机抽取一个样本进行问卷调查,调查的内容是关于他们对即将实施的某项政 策的态度,我们相信样本容量为 10 万人要比样本容量只有 100 人更能准确地反 映出全国民众的意愿。同样,如果一个研究者想对中国大学生的心理健康状况 进行调查的话,他或她需要做的是在中国的各个地区随机选取所需要的大学生 样本,而不是仅局限于他或她所在的城市。因此必须牢记,研究中某一特定结 果的信度取决于产生这一结果的观察量。在实际研究中,我们一般尽量使观察 量增加到最大限度。这样做不仅可以提高结果的信度,而且增强了我们所使用 的统计检验的效力,或者说增强了拒绝虚无假设的检验能力,也就是说使我们 更能够确信自变量对因变量存在影响。 同时,实验信度还涉及到对结果的统计检验。在任何实验中,当得出结果时, 我们首先会问自己:它是真的吗?这就又将我们带回到了信度的问题中,即如 果再做一遍实验,还会得到与之相同的结果吗?回答这个问题的一个方法就是 计算推断统计的结果。简单地说,推断统计用来确定两种实验条件下的差别到 底是由自变量还是随机因素造成的。如果不同实验条件下所得出的结果之间差 异很大,而且这种差异由偶然因素造成的概率低于 0.05 时,那么就可以排除偶 然因素造成实验结果的可能性,认为该结果是由自变量造成的。根据统计检验 所得出的差异是具有统计信度的。统计信度是得出实验结果的必要条件,但更 多的研究者倾向于实验同时还具有实验信度。因为,尽管结果具有了统计信度, 但其中仍有 5%的犯错误的概率。也就是仍然存在着偶然因素会混淆实验结果的 可能性。而且即使实验控制得很好,这种问题也会发生。
(二)实验信度的验证 实验信度其实就是实验的可验证性问题。要保证实验信度,就应鼓励研究者 进行验证性实验,这样即使推断统计显示仍存在犯错误的可能,但实验结果也是 可信的。有三种类型的实验验证:直接验证、系统验证和概念验证。 我们使用吉克和霍利约克(Gcik 和 Holyoak,1980,1983)的思维系列实验 来说明确定实验信度的重要性。他们研究的主题是类比推理对问题解决的作用。 所谓类比就是指人们往往会借助一些观点来帮助理解其他的观点,进而获得新 的发现。在他们的研究中使用的问题叫辐射问题,它首先被邓克(Dunker, 1945) 使用,可以表述如下: 假如你是医生,面临着一个胃内有恶性肿瘤的病人。肿瘤不切除,病人就 会死去,但是,在肿瘤上又不能动手术。有一种辐射能摧毁肿瘤。如果辐射以 足够高的强度立刻到达肿瘤,肿瘤会被摧毁。但不幸的是,其他的健康组织同 时也会被摧毁。而辐射强度较低时,射线对健康肌体无害,但对肿瘤也就不起 作用。那么,我们应该用什么类型的辐射去摧毁肿瘤同时又能避免伤害健康的 组织呢?(Gick 和 Holyoak, 1980, pp307-308)。 对此最具创造性和有效性的解决办法是从不同方向分别向肿瘤射几束弱射 线,并使它们会聚在一起。由于每束射线本身强度较弱,因此通过机体时不致 产生伤害,但是所有这些射线的强度聚集在一起则足够摧毁肿瘤。邓克对这一 问题的最早研究中发现,45 个被试中只有 2 个(4%)给出了这个解决办法。 吉克和霍利约克(1980,1983)所感兴趣的是,当在辐射问题前先给出一 个类似的问题及其解决办法时,被试是否能从第一个问题中抽象出基本原则并 运用到第二个中去。基于这种想法,吉克和霍利约克设计了一些的”类比故事”。 这些类比故事中均蕴涵着高效解决辐射问题的基本原则。 例如,在一个叫”指挥官”的故事中,一支坦克部队的指挥官要向敌军司令部 发起攻击。如果使用很多坦克,他赢的机会就很大,但他的部队必须经过一个 又窄又不牢固,且仅能通过少数坦克的桥;而如果使用少量的坦克发起袭击则 易被敌方击退。为了取得胜利,这支坦克部队的指挥官制订了一个让坦克分别 通过每座小桥,进而包围敌司令部的计划。这样,所有坦克都能同时过桥攻击 和占领敌司令部。 很明显,在坦克袭击问题与辐射问题之间具有很高的相似性。实验中被试是 否能使用指挥官故事中的道理来帮助其解决辐射问题?为了回答这个问题,吉 克和霍利约克(1980)设计了一系列实验进行研究。在他们的系列研究中涉及 到了所有三种类型的实验验证。 1.直接验证 在吉克和霍利约克的前三个实验中,吉克和霍利约克研究了三种情况下被 试对辐射问题的解决。三种情况分别为:在解决辐射问题之前,被试阅读过类 似于”指挥官”的包含类比推理的故事(实验条件);没读过任何其他的故事(控 制条件);或阅读过不相关的故事(控制条件)。然后比较了不同条件下被试的 问题解决情况。结果他们发现,那些在解决辐射问题前没有阅读故事或阅读无 关故事的被试中仅有大约 10%使用了最有效的方法来解决问题,而解决辐射问 题之前阅读过类比故事的被试中有大约 75%在时间限度内使用”会聚解决法(从 不同方向发射射线)解决了辐射问题。这些实验的结果说明人们对问题的解决 能从类比中受益。他们在多次的实验中都验证了这一观察,也就是重复了他们 的实验结果。 如果吉克和霍利约克(1980)进一步选择不同的被试,并试图尽可能准确地 重复他们的实验的话,那么就构成了对他们的实验的直接验证。也就是说直接 验证是指在尽可能保持原实验方法的情况下在实际中重复实验,就像其名称所 蕴涵的那样。 吉克和霍利约克后来发现,在其前三个实验的每个条件下,他们都提示了被 试利用所阅读的故事试着解决后来面对的辐射问题。于是,他们对另一个问题 产生了兴趣,并接下来进行了他们的第四个实验。 2.系统验证 在吉克和霍利约克(1980)系列研究的第四个实验中,他们让所有被试先 阅读类比故事,然后解决辐射问题。与先前实验不同的是,他们在实验中增加 了一个条件。在提示条件中,告诉被试在向他们呈现辐射问题前,先要阅读一 个故事,并且这个故事能够被利用来作为提示帮助其解决后面的问题(这是在 前三个实验中都有的条件)。而在无提示条件中,主试没有提示被试,他们刚刚 读过的故事与即将面临的问题解决任务之间存在联系。结果他们发现,当给出 提示后,92%的被试解决了问题;相反,当没有给出提示时,则仅有 20%的被试 解决了问题。也就是说,他们发现这种提示实际上是实验控制的一个关键部分; 仅让被试学习故事然后试着解决问题而不作特别的提示时,能够解决辐射问题 的被试人数就远远地少于前面三个实验。这一结果似乎表明,只给出类比是不 够的,提示是解决类比推理问题的一个重要因素。 在实验四中,吉克和霍利约克尝试变化的这一变量特征虽然看上去很小,但 却是对实验的系统验证。运用系统验证时,实验者试图变化那种先前被认为与 实验结果不相关的因素。也就是说,在实验中引入原来未加控制的变量。如果 原始实验中发现的某种现象是真的,那么尽管重做时其中一些因素发生了变化, 原来的实验结果应该仍然会出现。如果重做时原始实验的结果不再产生,那么 研究者就在他的实验中发现了重要的边界条件。这是一种很有趣的验证类型, 它可以产生重要的新信息。 3.概念验证 进行概念验证时,研究者试图验证一个现象,但在某种程度上又与原先的 实验有很大的不同。在前面所提到的多个实验之后,吉克和霍利约克(1983) 又做了一系列实验,试图确定能够促进类比故事对问题解决产生正迁移的条件。 在含有辐射问题和另一个其他问题的三个实验中,吉克和霍利约克让被试以不 同的方式(实验条件)来加工类比故事,以便了解正迁移量能否增加。正迁移 量是以实验条件下被试解决问题的百分比与控制条件的百分比之差作为指标。 对照组只呈现类比故事而不带任何指导语(控制条件)。他们发现下列情况下正 迁移量没有得到改进:要求被试概述故事而不是要他们为了回忆测验而学习(实 验 1);是否以言语或文字的形式给出这一故事所表达的道理和它的策略本质(实 验 2);把图解和故事一起呈现给被试(实验 3)。结果他们成功地揭示了在解决 辐射问题时产生类比故事的正迁移的条件。当被试学习两个类比故事并亲自描 述其相似性(在问题前给出)时,产生的正迁移要比只学习一个故事大得多。 吉克和霍利约克认为,被试学习两个类比故事,然后思考其相似性能产生好的 内在观念(或图式),这一观念能自动地用于解决新问题。 吉克和霍利约克(1983)的实验并非直接或系统地验证了他们早期得出的 被试难于自发应用类比解决问题的研究结果,但他们会聚出了一个相同的结论, 即难于从类比来改善推理。因此,这些实验可被看作概念验证。尽管实验技术 与原始实验相比并不是精确的复制,但在某种程度上他们验证了那种没有明确 指导条件下的类推困难现象的本质。 总之,从上面的讨论中,我们可以认识到:在直接验证中,研究者努力尽 可能准确地重复原实验,看能否在第二次得到同样的实验结果。而在系统验证 和概念验证中,研究者的兴趣并不在于精确地重复实验,在于描述某一心理现 象的边界条件,即保证该现象存在的条件。换句话说,一旦超出了这些条件, 那么该现象则不复存在。 实验的验证问题与结果的普遍性问题其实是交织在一起的。系统验证和概 念验证实验同时也是为了说明结果的普遍性。实验结果能从系统验证实验程序 中比较轻微的变化到概念验证实验程序中比较大的变化中得到推广吗?通常, 当研究者能够发现某一现象不能被验证的条件时,我们对该现象的理解就更深 入了。在某种意义上说,如果研究者发现了该现象不能被验证的条件,那么对 于研究本身来说,可能是最好的结果。因为,当这种边界条件被证实,研究者 理解了什么因素影响某个心理现象的出现与否时,就可以建构关于这一现象的 更好的理论。
实验研究的效度和信度从来都不是相互割裂的:一个具有良好效度的实验, 将得益于其对变量关系的明确把握,因而其结论往往也具备高度的可重复性; 反过来,一个信度高的实验,则需要在保持其可重复验证优点的同时,设法提 高其结论的推广价值。良好的效度和信度是评价实验设计成功与否的关键,而 雄厚的理论基础、周密的思考和设计、谨慎科学的态度则是达到实验效度和信 度的必备素质。 |
|