配色: 字号:
《实验心理学》第二章 实验研究的基本问题 - 信效度
2020-06-24 | 阅:  转:  |  分享 
  
实验心理学第二章实验研究的基本问题袁媛2017.10实验研究的信效度回顾:实验研究的三个问题实验要控制什么?如何控制?控制得好不好?变量
实验设计实验的信度与效度一、实验的信度实验信度是指实验结论的可靠性和前后一致性程度。考察实验信度的方法:推断统计实验验证实验验证方
法:重复验证项链问题(Silveira,1971)你面前有四条小链子,每条链子有三个环。打开一个环要花2分钱,封合一个环要花
3分钱。开始时所有的环都是封合的。你的任务是要把这12个环全部连接成一个大链子,但花钱不能超过15分钱。Silveira,J.
M.(1971).Incubation:Theeffectofinterruptiontimingandlen
gthonproblemsolutionandqualityofproblemprocessing.Doctor
aldissertation,UniversityofOregon.自变量1:是否中断解题自变量2:中断前解题时间自变量
3:中断解题的时间实验安排(实验设计)将被试随机分为5组:第1组被试连续解题35分钟(控制组);第2组被试解题3分钟,然后被要求停
下来去做另外的事情30分钟,然后再回头解该题32分钟;第3组被试解题3分钟,然后被要求停下来去做另外的事情3.5小时,然后再回头解
该题32分钟;第4组被试解题13分钟,然后被要求停下来去做另外的事情30分钟,然后再回头解该题22分钟;第5组被试解题13分钟,然
后被要求停下来去做另外的事情3.5小时,然后再回头解该题22分钟;结果第1组(控制组)半小时中有47%的人解决了问题;其他四组(
酝酿组)有61%的人解决了问题;差异不显著。第4、5组(解题13分钟后被打断)被试的解决问题的人数比例显著高于第2、3组(解题3分
钟后被打断)。继续实验……将被试随机分为2组:第1组被试连续解题35分钟;第2组被试解题13分钟,然后被要求停下来去做另外的事情
3.5小时,然后再回头解该题22分钟;(被试不知道还要回头解题)结果:第1组38%,第2组81%做什么?做多久?是否知道还要回头解
题?拓展研究——解多久?中断做别的事一段时间解什么题?解多久?解题一段时间再解题一段时间参考阅读Sio,U.N.,&Orm
erod,T.C.(2009).2009_Does%20Incubation%20Enhance%20Problem%20
Solving?%20A%20Meta-Analytic%20Review.pdfDoesincubationenhance
problemsolving?Ameta-analyticreview.Psychologicalbulletin,
135(1),94-120.Gallate,J.,Wong,C.,Ellwood,S.,Roring,R.W.,
&Snyder,A.(2012).2012-Creative%20People%20Use%20Nonconscious
%20Processes%20to%20TheirAdvantage.pdfCreativepeopleuse2012-Cr
eative%20People%20Use%20Nonconscious%20Processes%20to%20TheirAdva
ntage.pdfnonconscious2012-Creative%20People%20Use%20Nonconscious%
20Processes%20to%20TheirAdvantage.pdfprocessestotheiradvantag
e.CreativityResearchJournal,24(2-3),146-151.心理学研究的可重复性(Repro
ducibility)参阅:Collaboration,O.S.(2015).2015-Estimating%20the%
20reproducibility%20of%20psychological%20science.pdfEstimatingth
ereproducibilityofpsychologicalscience.Science,349(6251),a
ac4716.https://osf.io/ezcuj/https://osf.io/ezcujhttps://osf.io/e
zcuj//OpenScienceCollaboration.2012-An%20open,%20large-scale,%
20collaborative%20effort%20to%20estimate%20the%20reproducibility%
20of%20psychological%20science.pdfAnopen,large-scale,collabora
tiveefforttoestimatethereproducibilityofpsychologicalscie
nce[J].PerspectivesonPsychologicalScience,2012,7(6):657-66
0.Klein,R.,Ratliff,K.,Vianello,M.,&AdamsJr,R.(2014).20
14-Investigating%20Variation%20in%20Replicability.pdfInvestigatin
gvariationin2014-Investigating%20Variation%20in%20Replicabilit
y.pdfreplicability2014-Investigating%20Variation%20in%20Replicabi
lity.pdf:A2014-Investigating%20Variation%20in%20Replicability.p
df‘many2014-Investigating%20Variation%20in%20Replicability.pdfla
bs’replication2014-Investigating%20Variation%20in%20Replicability
.pdf2014-Investigating%20Variation%20in%20Replicability.pdfproje
ct.SocialPsychology,45,142-152.http://econtent.hogrefe.com/t
oc/zsp/45/3http://http://econtent.hogrefe.com/toc/zsp/45/3econten
t.hogrefe.com/toc/zsp/45/3http://econtent.hogrefe.com/toc/zsp/45/
4http://http://econtent.hogrefe.com/toc/zsp/45/4econtent.hogrefe.
com/toc/zsp/45/4推荐阅读http://mp.weixin.qq.com/s?__biz=MzA5NDkzNjIwM
g==&mid=2651656411&idx=1&sn=a2321ae56c104d0d62869a61117379d3&scen
e=23&srcid=0509aqMJhcWAtKnuWSbZDbpV不可复制的研究就是“假的”或“错的”吗??http://fi
vethirtyeight.com/features/failure-is-moving-science-forward/Fail
ureIsMovingSciencehttp://fivethirtyeight.com/features/failure
-is-moving-science-forward/Forward:http://fivethirtyeight.com/fe
atures/failure-is-moving-science-forward/Thereplicationcrisisi
sasignthatscienceisworkinghttp://fivethirtyeight.com/featur
es/failure-is-moving-science-forward/.再推荐——Eklund,A.,Nichols,T
.E.,&Knutsson,H.(2016).201610【PNAS】Cluster%20failure:%20why
%20fmri%20inferences%20for%20spatial%20extent%20have%20inflated%2
0false-positive%20rates.pdfClusterfailure:why201610【PNAS】Clust
er%20failure:%20why%20fmri%20inferences%20for%20spatial%20extent%
20have%20inflated%20false-positive%20rates.pdffmri201610【PNAS】Clu
ster%20failure:%20why%20fmri%20inferences%20for%20spatial%20exten
t%20have%20inflated%20false-positive%20rates.pdfinferencesfors
patialextenthaveinflatedfalse-positiverates.Proceedingsof
theNationalAcademyofSciencesoftheUnitedStatesofAmerica,
113(28),7900.http://www.bioon.com/3g/id/6685608/PNAShttp://www.
bioon.com/3g/id/6685608/:假阳性率高达http://www.bioon.com/3g/id/6685608
/70%http://www.bioon.com/3g/id/6685608/,大约http://www.bioon.com/3g
/id/6685608/4http://www.bioon.com/3g/id/6685608/万篇使用http://www.bi
oon.com/3g/id/6685608/fMRIhttp://www.bioon.com/3g/id/6685608/的论文不
可信?二、实验效度实验效度是指实验方法能达到实验目的的程度。也就是实验结果的准确性和有效性程度。实验效度是指实验方法能达到实验目的
的程度。即实验的有效性和准确性。实验目的是验证假设,验证自变量和因变量之间的关系,使实验结果的推论可用以解释和预测其他同类现象。由
于不同实验者在设计和额外变量的控制程度上极不相同,实验的效度也会有很大的不同。实验效度主要包括内部效度和外部效度,以及又从中分出了
构想效度。人际熟悉感与生产率一名心理学家认为人们彼此增进了解时,他们的生产率就会上升,在到达某一点之后便开始慢慢下降。为了检验这
个理论,这名心理学家建立了一个由陌生组成的群体并让他们完成一系列的作业。这是5个各需要35分钟才能完成的作业。他在各作业之间安排了
5分钟的休息时间。结果:这个组的生产率一直上升,直到在完成第五个任务的时候,成绩出现了明显的下降。他认为这个结果证明了他的理论。
(一)实验的构想(构念)效度指实验研究假设和测量指标的理论构思及其操作化问题,即理论构思及其转换的有效性。构想效度直接决定了研究
者的设想能不能以实验的形式表现出来。构想效度构想效度考察问题或变量的概念测量或概念操作上的代表性问题。研究问题的构想效度,反映了研
究者对其感兴趣研究对象的理论构思或变量间关系构思的全面性程度。研究变量的构想效度,反映了研究者对其研究变量的操作性定义的代表性程度
。例:睡眠巩固记忆有研究者认为,睡眠是人类在长期进化过程中形成的一种适应性机制,可以有效巩固记忆。设计实验考查睡眠对记忆巩固作用。
实验构想实验假设:如果睡眠可以巩固记忆,那么——如果记忆一组信息之后,得到睡眠机会人将比没有得到睡眠机会的人回忆或再认成绩更好。实
验设计:随机选取有午睡习惯的被试;随机分为两组;两组被试都在上午9点记词语,晚上9点(即12小时后)进行再认测试,其中一组中间不可
以睡觉或打盹,另一组被试照常午睡。最后比较两组被试再认成绩的差异。伪证对人的影响(Kassi&Kiechel,1996)在某
些国家或地区,呈现伪证是警察审问嫌疑人获取口供的常用方法之一。实验目的:证明其可靠性。研究者设计了一个2(高、低易感性)×2(有
、无目击者)的完全随机实验。SMKassin,KLKiechel.(1996).Thesocialpsycholog
yoffalseconfessions:Compliance,internalization,andconfabul
ation.PsychologicalScience,7(3),125-128.实验方法1被试79名本科生(40男、39
女),随机分为4组:易感性高有目击者易感性高无目击者易感性低有目击者易感性低无目击者2程序每次实验包括2名被试(实际上其中1人是
主试的助手,即“假被试”),他们在一台计算机上进行反应时任务。实验开始前,主试要求他们填写一份关于打字经验和能力、空间知觉和反应速
度的问卷。然后,2名被试被带到另一个房间,与主试在桌子两侧相对而坐。主试要求假被试大声读一系列字母,被试在键盘上打出这些字母。3分
钟后,两人互换角色。在被试开始打字前,主试特别警告被试不要按空格键旁边的“Alt”键,因为按这个键可能会导致程序死机和数据丢失。实
验开始后60秒钟计算机停止运转;然后,主试非常不高兴地指责被试按了禁止按的Alt键。所有被试最初都否认。这时,主试大略地检查了一下
键盘,确认数据丢失后,问被试:“Didyouhitthe‘Alt’key?”自变量操纵易感性高低:主试助手(假被试)使用
电子节拍器以每分钟43个字母的较慢速度读字母或者以每分钟67个字母的速度读字母。通过预测,两种条件下正确与错误次数:43个/分:正
确33.01、错误1.1267个/分:正确61.12、错误10.90两种速度条件下正确与错误次数差异显著有无目击者:在被试最初否认
控告后,主试会问假被试:“Didyouseeanything?”有目击者条件:假被试承认看见被试按了Alt键,从而导致程序终
止。无目击者条件:假被试说没有看见被试按了Alt键。因变量操纵和观测屈从比例:实验者手写了一个标准化口供(“IhittheA
ltkeyandcausedtheprogramtocrash.Datawerelast.”),然后反复要求被
试在上面签字,记录被试签字的比例.内化比例:在实验因“错误按键”而中断后,由正在等待下一次实验的被试(也是假被试)假装问被试:“W
hathappened?”,记录被试承认自己过错的比例(如:“Ihitthewrongbuttonandruine
dtheprogram.”“IhitabuttonIwasn’tsupposedto.)虚构比例:实验快结束
时,主试过来问被试能否想起如何或者什么时候按了Alt键。检验被试是否为了配合断言而“回忆”具体细节(如“Yes,here,I
hititwiththesideofmyhandrightafteryoucalledoutthe‘A
’.”)事后解释说明实验结束后,实验者向被试详细介绍了实验的目的与安排。有4名被试报告说自己在实验中猜到了实验的欺骗性质,故这4名
被试的数据被认为是无效数据而被删除。对剩下的75名被试的有效数据进行统计。实验结果该研究存在的主要问题实验室模拟情景与真实的警察审
问差异巨大,真实情景中嫌疑人承认犯罪后果严重,而实验室情景并无严重后果。因此,本实验目的是要证明警察在审问中呈现伪证获得的口供是否
可靠,本实验构想难以回答该假设。解决的办法:让模拟情景更真实,甚至让警察参与。涉及伦理问题,需要认真构思。本研究中,实验本身的设计
是严谨的,能够证明伪证确实会导致人们承认自己并未犯过的过错。(二)实验的内部效度实验的内部效度是指实验中的自变量与因变量之间的因果
关系的明确程度。核心是控制,其目的是通过对实验条件的有效控制(包括研究变量和额外变量),保证实验结果的准确性与可靠性,达到对自变量
和因变量关系的明确解释。影响实验内部效度的因素有:主试-被试间不恰当的相互作用(要求特征和实验者效应)统计回归其他:历史、成熟、
选择、前测、被试的亡失、实验程序的不一致坎贝尔等人(1979)对内部效度影响因素的总结:1.历史(实验时的特定事件)2.成熟(生
理心理发展)3.被试选择的偏差(未随机、不等组)4.选择与成熟的交互作用5.统计回归6.前测7.测量工具8.被试丢失9.主试效应与
被试效应10.因果方向不明11.其他影响因素散步与创造Oppezzo等(2014)散步对发散思维的影响所有参与者都在一个带有椅子、
桌子、跑步机的小房间里完成实验任务。该实验采用被试内设计。所有参与者首先是坐在桌子前的椅子上,面向空白墙壁,完成第1组发散思维任务
。然后,所有参与者来到跑步机上,调整跑步机的速度,使之与自己平时散步时的速度相当,面向空白墙壁,一边在跑步机上“散步”,一边完成第
2组发散思维任务(与坐着时完成的任务不同但等价)。坐着和散步时完成的两组发散思维任务在被试间做了平衡,即一半的被试坐着时做第1组任
务,散步时做第2组任务;另一半的被试坐着时做第2组任务,散步时做第1组任务。结果:散步时发散思维测试的成绩显著高于坐着时。内部效
度的特例——统计结论效度实验研究的统计结论效度是指有关决定实验处理效应的数据分析程序的有效性和准确性,涉及到研究误差的变异来源和如
何恰当运用统计显著性检验的问题。它取决于两方面条件:数据的质量统计检验的假设(三)实验的外部效度实验的外部效度是指实验结果能够普遍
推论到样本的总体和其他同类现象中去的程度,即实验结果的普遍代表性和适用性。实验的外部效度主要受下列三方面的影响:实验环境的人为性被
试者样本缺乏代表性测量工具的局限性影响外部效度的因素:测验的反作用效果选择偏差与实验变量的交互作用实验安排的反作用效果重复实验的干
扰二战期间,一名研究者想要检验在训练过程中惩罚还是奖励更能提高训练效果。实验任务是辨认敌、我飞机。他让被试坐在雷达屏幕前,同时,敌
、我飞机的剪影以非常快的速度(一秒钟)闪过屏幕。一旦飞机剪影出现,被试按键反应(一个按钮代表“敌机”,另一个按钮代表“友机”)。每
个被试都在连续5天的时间内每天进行两个小时的练习。第1天,被试在每个刺激辨别之后都会被告知其辨认是否准确。从第2天开始,将被试随机
分为A、B两组。A组的被试在做出正确辨认之后可以获得10美分的奖励,而做出错误辨认的不受任何惩罚;B组的被试在每个错误辨认之后都会
遭到电击,而做出正确辨认不会获得任何奖励。第5天检验训练效果。被试在每100个剪影中正确辨认的数目被用来检验训练方法有效性。不过,
到第5天,A组中5%的被试和B组中35%的被试已经退出了实验。实验结果:第5天的测验中,A组正确辨认的平均数为80,B组的平均数
为92,差异显著(p<0.05)。实验者认为实验结果支持了训练中惩罚比奖励更有效的实验假设,并主张以惩罚的方式进行所有的训练。内
部效度和外部效度的关系实验的内部效度和外部效度是相互联系、相互影响的。提高实验内部效度的措施可能会降低其外部效度,而提高实验外部效
度的措施又可能会降低其内部效度。这两种效度的相对重要性,主要取决于实验的目的和实验的要求。可以在保证实验内部效度的前题下,采取适当
措施以提高外部效度。实验效度案例分析案例1一组研究者认为在喂养白鼠时,如果每天多加入20%的蔗糖,然后训练白鼠在一个有障碍的车轮
上跑,这时跑的速度会显著加快。控制组的白鼠只接受一般的喂养。实验选用100只白鼠,将它们随机分成两组(顺序由扔钱币决定)。接受正常
喂养的50只白鼠先跑,另50只接受蔗糖喂养的后跑。结果:第二组跑得比每一组快。实验证明了假设,在高糖情况下老鼠有较多的能量。研究者
将这一结果泛化到小学生中,认为应该给他们吃一些加糖的食品。案例2有人假设感觉剥夺限制了动物智力的发展。为了检验这个假设,一名实验
者用两只母老鼠和它们各自刚生下来的8只幼鼠进行实验。他把一只母老鼠和她的后代一起放置在具有充足空间的大笼子里,笼子里有充足的物品。
他把第二只母老鼠和它的幼鼠分开,并把它们单独地放在隔离的笼子里,这个笼子里面空无一物,仅由外界给它们提供食物。5个月之后,两个组都
进行复合式T型迷津测验,以食物作为奖励。经过20次尝试之后,所有未被剥夺的幼鼠能够完全准确地通过迷津;被剥夺的幼鼠总会出现一些失误
。后者反应迟钝,没有刺激的话就呆着不动。因此,实验者认为感觉剥夺限制了智力发展,因为被剥夺的幼鼠连简单的迷津实验都不能完成。案例
3:在睡眠中可以学习吗?实验目的:为了研究在睡眠期间是否会发生学习。实验材料是一些英文单词和与这些单词意思相同的德语单词。被试是1
0名没有德语知识的大学生。实验程序在一个隔音的实验室内,被试睡在一张舒适的床上。每名被试在清晨1:30左右躺下休息,主试进入房间并
问被试是否睡着,如果被试没什么反应,主试打开一个录音机,其中录有德语单词和与它们意思相对的英文单词:例如,“obne意思是没有。”
实验共有60个不同的单词,持续放单词直到4:30结束。如果中间被试醒了,他要叫主试停止播放直到被试再次入睡。为了测验学习,主试在早
晨向被试重放60个德语单词,每放一个单词要求被试说出它的英文对应单词。因变量为被试正确识别德语单词的数量。实验结果结果显示,正确识
别单词的均数为9,最高识别量为20。主试认为这些结果可以证明实验假设,即在睡眠时会发学习。睡眠中真的可以学习吗?如何证明?办法:
运用仪器监控被试的睡眠程度,确定被试进入深度睡眠后开始学习实验。参考相关研究:Hu,X.,Antony,J.W.,Cre
ery,J.D.,Vargas,I.M.,Bodenhausen,G.V.,&Paller,K.A.(2
015).Unlearningimplicitsocialbiasesduringsleep.Science,34
8(6238),1013-1015.Jia,H.,Hong-Qiang,S.,Su-Xia,L.,Wei-Hua,
Z.,Jie,S.,&Si-Zhi,A.,etal.(2015).Effectofconditioned
stimulusexposureduringslowwavesleeponfearmemoryextinctio
ninhumans.Sleep,38(3).Arzi,A.,Shedlesky,L.,Ben-Shaul,M.,
Nasser,K.,Oksenberg,A.,Hairston,I.S.,&Sobel,N.(2012).
Humanscanlearnnewinformationduringsleep.Natureneuroscienc
e,15(10),1460-1465.案例4:家庭经济环境对儿童语言发展的影响研究者随机选择了某市家庭经济收入高、低不同的两组
儿童各50名,在控制了除经济收入外的其他重要的额外变量后,测量了这两组儿童分别在1岁和2岁时的语言发展水平。结果发现:
两组儿童在1岁时不存在语言发展上的差异,但在2岁时差异显著,表现为来自高收入家庭的儿童比来自低收入家庭的儿童拥有明显的语言
优势。该研究推论,良好的家庭经济环境会促进儿童语言的发展。案例5:社会剥夺是否影响表扬的效果?研究发现,对于那些进行了食物剥夺的动
物来说,一颗食物粒的强化效果会相对提高。有心理学家设计了一个实验来研究在对儿童进行社会剥夺和社会强化后是否会得到相同结果。被试是6
岁儿童。实验方法实验通过石弹子游戏来测量社会强化(表扬)的效果。游戏中有一个盒子,盒子上有两个孔,被试可以向任意一个孔投石弹子。每
次只允许拿一个石弹子去投。在游戏的前4分钟,主试看被试玩游戏很少对他们进行口头强化(表扬)。在接下来的10分钟每当被试投中石弹子,
主试就对儿童说“好极了”或“很好”进行口头强化(表扬)。因变量为4分钟内到10分钟内投中石弹子的增量。实验处理为了确定社会剥夺的
效果,主试将被试随机分派到3个处理中。在社会剥夺处理条件下被试在玩游戏前会单独呆在一个房间内20分钟。在没有剥夺处理条件下,被试立
即进行游戏。在社会满足处理条件下被试在玩游戏前与主试交谈20分钟,在这段时间内他们可以画画和剪图片。实验结果剥夺处理组的被试投中
石弹子的增量高于其他两个处理组并且没有剥夺处理组的增量高于满足处理组。实验结果证明了假设即社会满足或社会剥夺(类似于食物或水剥夺
)会影响社会强化的效果。讨论:该实验是否存在影响实验内部效度的因素未加以控制?如何证明?史蒂文森和奥蒂姆(Stevenson&
Odom,1962)的实验验证第一组被试在玩石弹子游戏之前,主试将他们隔离15分钟,但在这15分钟内提供一些对他们有吸引力的玩
具。第二组被试也被隔离15分钟,但没有提供玩具。第三组被试立即进行石弹子游戏。结果:两个隔离组之间没有差别,但两组的成绩水平都高于
立即进行游戏组的成绩。因此,高出的成绩一定由社会剥夺引起的。Stevenson,H.W.,&Odom,R.D.(19
62).Theeffectivenessofsocialreinforcementfollowingtwocond
itionsofsocialdeprivation.JournalofAbnormal&SocialPsychology,65(6),429.存在的问题:练习与疲劳效应;方法:增加一个控制组,不给与他们熟悉对方的机会。存在的问题:没有排除习惯破除带来的影响。解决的办法:让有午睡习惯的人习惯不午睡;或者让没有午睡习惯的人习惯午睡;或者采用自然睡眠模式,一组早晚做前后测,一组晚早前后测。该研究存在的主要问题:实验室模拟情景与真实的警察审问差异巨大,真实情景中嫌疑人承认犯罪后果严重,而实验室情景并无严重后果。因此,本实验目的是要证明警察在审问中呈现伪证获得的口供是否可靠,本实验构想难以回答该假设。解决的办法:让模拟情景更真实,甚至让警察参与。不过,这涉及伦理问题,需要认真构思。当然,本研究中,实验本身的设计是严谨的,能够证明伪证确实会导致人们承认自己并未犯过的过错。Oppezzo,M.,&Schwartz,D.L.(2014).GiveYourIdeasSomeLegs:ThePositiveEffectofWalkingonCreativeThinking.JournalofExperimentalPsychology:Learning,Memory,andCognition,40(4),1142–1152.存在的问题:奖惩不匹配,导致惩罚组被试流失过大,导致被试结构变化,两组被试不再是等组。这个研究的主要问题是存在实验处理的顺序效应:接受正常喂养的50只白鼠先跑,另50只接受蔗糖喂养的后跑。解决办法:ABBA存在问题:两种情况下,除了有无感觉剥夺的差异外,还存在两组老鼠的遗传特征不同、有无母鼠喂养的差异;解决办法:将两只母鼠所生小鼠匹配到两种情况,并剥夺母鼠喂养。存在的问题:睡眠的操作定义不清楚;判断被试是否睡着的方法过于主观。
献花(0)
+1
(本文系伏月又一首藏)