第五章心理测量学知识

营养时光 2018-03-02

展开全文

测量与测量量表

一、什么是测量

对测量的描述正确的是，测量就是依据一定的法则用数字对事物加以确定。

测量的元素包括：①法则；②数字；③事物。

测量所用数字具有自然数的特点，即具有：①区分性；②等级性；③等距性；④可加性。

二、测量要素

任何测量都应该具备的要素是：①参照点；②单位。

（一）参照点：参照点就是确定事物的量时，计算的起点。参照点有两种，即：①绝对零点；②相对零点。参照绝对零点可加减乘除，参照相对零点只能加减（心理测量参照相对零点）。

（二）单位：好的单位必须具备两个条件：①确定的意义；②相同的价值。心理现象既没有确定的意义，也没有相同的价值。心理测验的结果是有误差的，要用区间来解释，而不是用点来解释。

三、测量量表

定义：在一个定有单位和参照点的连续体上把事物的属性表现出来，这个连续体称为量表。

斯蒂文斯（S.S.Stevens）将测量从低级到高级分成4种水平：①命名量表；②顺序量表；③等距量表；④等比量表。

（一）命名量表：是测量水平最低的量表形式，只是用数字来代表事物或把事务归类。用1代表男，用2代表女等等，这样的量表通常叫命名量表。

（二）顺序量表：比命名量表水平高，数字不仅指明类别，同时指明类别的大小或属性程度。我们通常将学生的考试结果按名次排队，这些名次属于顺序变量。在顺序量表中，变量具有等级。

（三）等距量表：比顺序量表进一步，有相等的单位，其数值可以相互做加减运算；但没有绝对零点，因此不能做乘除运算。0℃并不意味着没有温度，这种说法对。

（四）等比量表：最高水平量表，有相等单位又有绝对零点，所得的数字可以做加减乘除运算。其数值可以进行加、减、乘、除运算的量表是等比变量。

一般说来，心理测量是在顺序量表上进行的，主要用于分等级和排序。

斯蒂文斯的4种量表（水平从低到高）
水平	量表	属性			可进行
水平	量表	大小关系	相等单位	绝对零点	可进行
1	命名量表	无	无	无	标记和分类
2	顺序量表	有	无	无	分等级和排序
3	等距量表	有	有	无	加减运算
4	等比量表	有	有	有	加减乘除运算

心理测验概要

基本概念

一、心理测量的定义

正确的说法是，心理测量，就是依据心理学理论，使用一定的操作程序，通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。

二、心理测量的性质

心理测量具有独特的性质，即具有：①间接性；②相对性；③客观性。

相对性属于心理测验的重要性质。

影响心理测量客观性的要素是：①测验刺激的客观性；②对反应的量化的客观性；③对测验结果的推论的客观性。测验的客观性不包括绝对的标准的客观性。

分类

一、按测验的功能分类

按测验的功能进行分类，可将测验分为：①智力测验；②特殊能力测验；③人格测验。

二、按测验材料的性质分类

按测验材料的性质分类，可将测验分为：①文字测验；②操作测验。

三、按测验材料的严谨程度分类

按测验材料的严谨程度分类，可将测验分为：①客观测验；②投射测验。

刺激没有明确意义，对被试反应没有明确规定的心理测验，称之为投射测验。投射测验的主要特点是刺激材料的意义是不明确的。

四、按测验的方式分类

按测验的方式分类，可将测验分为：①个别测验；②团体测验。

团体测验始于第一次世界大战，陆军甲种和乙种智力测验是第一个团体测验。

五、按测验的要求分类

按测验的要求分类，可将测验分为：①最高作为测验；②典型行为测验。

心理测验的分类

分类原则

测验种类

测验实例

按功能分类

智力测验

特殊能力测验

人格测验

比内一西蒙智力测验；斯坦福一比内智力量表；韦氏儿童成人智力量表

升学、职业指导，特殊工种人员筛选，临床较少

MMPI、16PF、EPQ、罗夏、主题统觉（TAT）（0308-3-191）

按材料性质分类

文字测验

操作测验

MMPI、EPQ、16PF、韦氏智力量表中的言语量表

罗夏、TAT、瑞文测验、韦氏智力量表中的操作量表

按材料严谨程度分类

客观测验

投射测验

绝大多数心理测验均属此类

罗夏、主题统觉、自由联想、句子完成

按方式分类

个别测验

团体测验

比内一西蒙智力量表；韦氏智力量表；不能用于团体

陆军甲种乙种测验；教育成就测验；团体测验可个别实施，如MMPI、EPQ、16PF等

按要求分类

最高作为测验

典型行为测验

智力测验、成就测验均属最高作为测验

各种人格测验均属典型行为测验

应用

纠正错误的测验观

错误的测验观

错误的测验观包括：①测验万能论；②测验无用论；③心理测验即智力测验。

错误的测验观不包括“以上一个也不是”。

正确的测验观

正确的测验观包括（习题137）：①心理测验是重要的心理学研究方法之一，是决策的辅助工具；②心理测验作为研究方法和测量工具尚不完善。

在心理咨询中的应用

我国目前心理门诊中运用较多的心理测验有：①智力测验；②人格测验；③心理评定量表。

一、智力测验

我国修订后的韦氏智力量表包括：①WAIS-RC；②C-WISC；③C-WYCS1。

二、人格测验

三、心理评定量表

历史

一、科学心理测验的产生与发展

英国生物学家和心理学家高尔登（F.Galton）的主要贡献有：①提出人的不同气质特点和智能是按身体特点的不同而遗传的；②为了研究差异的遗传性，设计了测量差异的方法；③为心理测验奠定了统计学基础，第一个提出了相关的概念。

美国心理学家卡特尔（J.M.Cattell）对促进心理测验发展做出的巨大贡献是：①使心理测验首次出现于心理学文献中；②认为心理学应立足于实验和测验；③认为心理测验应有统一的标准。

比内（A.Binet）编制了世界上第一个正式的心理测验。

20世纪以后，心理测验在如下几方面取得了长足发展：①操作测验；②团体智力测验；③能力倾向测验；④人格测验。

20世纪在智力测验方面的新发展是研发了：①罗夏测验；②团体测验；③操作测验；④投射测验（P335）。

有关心理测验的发展史，正确的描述是中国的科举制度是世界上较早的心理测验的实践。

二、现代心理测验在我国的发展

近些年来，我国心理学家正在致力于心理测验的本土化研究。

测验指标

测验常模

常模团体

一、常模团体的性质

常模团体是由具有某种共同特征的人所组成的一个群体，或者是该群体的一个样本。

常模团体的选择一般包括：①确定一般总体；②确定目标总体；③确定样本。

二、常模团体的条件

常模团体的条件包括：①群体构成的明确界定；②对群体具有代表性；③样本量大小要适当；④具有新近性（标准化样组是一定时空的产物）。抽样方法不是常模团体的条件。

（一）群体的构成必须明确界定

（二）常模团体必须是所测群体的代表性样本

（三）样本大小要适当

实际工作中，样本量大小适当须从如下几方面考虑：①经济；②实用；③减少误差。

常模样本量的大小，一般最低不小于30或 100。全国性常模，样本量一般要在2000～3000之间。样本大小适当的关键是样本要有代表性。

（四）标准化样组是一定时空的产物

三、取样的方法

抽样的方法一般有：①简单随机抽样；②系统抽样；③分组抽样；④分层抽样。

取样是指从目标人群中选择有代表性的样本。

随机号码表法是简单随机抽样。

系统抽样要求：①目标总体无序可排；②无等级结构存在。

系统抽样法的关键是计算组距。

先将群体分组，再在组内进行随机取样的方法是分组抽样。

四、常模分数与常模

（一）常模分数

定义：常模分数就是施测常模样本被试后，将被试者的原始分数按一定规则转换出来的导出分数。

常模分数又叫导出分数。

导出分数的特性：①与原始分数等值；②具有意义；③等单位；④具有参照点。

（二）常模

常模分数构成的分布，就是通常所说的常模，它是解释心理测验分数的基础。

对于某些特殊的群体来说，情况很具体而特殊，我们就需要制定特殊常模。

常模表示一种最简单、最基本的且常用的呈现常模资料的方法。它的构成要素为：①原始分数；②导出分数；③对常模团体的有关具体描述。

常模类型

一、发展常模

发展常模就是年龄量表。在年龄量表中，个人的分数指出了他的行为在按正常途径发展方面处于什么样的发展水平。

（一）发展顺序量表

发展顺序量表可以告诉人们某儿童的发育与其年龄相比：①超前；②滞后；③正常。

最早的一个发展顺序量表的范例是葛塞尔发展程序表。

葛塞尔发展程序表，其中按月份显示儿童在如下几方面的大致发展水平：①运动水平；②适应性；③语言。④社会性。

按照葛塞尔研究的婴儿行为变化的顺序，16周的婴儿能使头保持平衡。

皮亚杰的研究着重于从婴儿到十多岁儿童认知过程的发展，尤其注重某些特殊概念的形成，其中最著名的工作就是对守恒概念的研究。

皮亚杰发现，儿童在不同时期出现不同的守恒概念，通常儿童到5岁时才会理解质量守恒；6岁时才会掌握重量守恒；7岁时才具有容量守恒概念。

发展量表中的年龄量表最基本的假设是所测量的特质随年龄有系统地改变。所以，它的基本要素是：①一组可以区分不同年龄组的题目；②一个常模团体；③常模表。

最直观的发展常摸是发展顺序量表。

（二）智力年龄

比内一西蒙量表中首先使用智力年龄的概念。

一个儿童在年龄量表上所得的分数，就是最能代表他的智力水平的年龄。这种分数叫智力年龄，简称智龄。

在吴天敏修订的比内一西蒙量表中，某儿童通过了 4岁组的全部题目，5岁组通过3题，6岁组通过2题，7岁组通过1题，其智龄为5岁。用陆志韦修订的比内—西蒙量表做测验，某儿童6岁组题目全部通过，7岁组通过4题，8岁组通过3题，9岁组通过2题，其智龄为7岁6 个月。

（三）年级当量

常模样本中6年级的算术平均分为35，某儿童在算术测验中得35分，那就是说，该儿童的算术年级当量是6年级水平。

二、百分位常模

百分位常模包括：①百分等级；②百分点；③四分位数；④十分位数。

（一）百分等级

一个测验分数的百分等级是指在常模样本中低于这个分数的人数百分比。

55的百分等级表示在常模样本中有55％的人比这个分数低。

王红在 30名同学中物理成绩是 80分，排列第五名，则其百分等级为85。

（二）百分点

在分数量表上，相对于某一百分等级的分数点就叫百分点或百分位数。

高考的最高分为650，其百分等级为100，最低分为105分，百分等级为1，要录取20％的学生进入大学，百分等级为80的百分位数540。

（三）四分位数和十分位数

四分位数是将量表分成四等份，相当于百分等级的25％、50％和75％对应的三个百分数分成的四段。

十分位数1％～10％为第一段。

三、标准分常模

标准分常模是将原始分数与平均数的距离以标准差为单位表示出来的量表。因为它的基本单位是标准差，所以叫标准分数。常见的标准分数有Z分数和：①Z分数；②T分数；③标准九分数；④离差智商。

标准分数可以通过线性转换和非线性转换得到。

（一）线性转换的标准分数

Z＝（X—）/SD式中 SD为样本标准差。X为任一原始分数，为样本平均数。

Z＝A＋BZ式中Z为转换后的标准分数，A、B为根据需要指定的常数。加上一个常数是为了去掉负值，乘以一个常数是为了使单位变小从而去掉小数点。

（二）非线性转换的标准分数

当原始分数不是常态分布时，也可以使之常态化，这一转换过程是非线性的。

常态化过程主要是将原始分数转化为百分等级，再将百分等级转化为常态分布上相应的离均值，并可以表示为任何平均数和标准差。

当以50为平均数，以10为标准差来表示时，通常叫T分数。

最早使用T分数者是麦柯尔。注：未见教材中描述。

标准九分是一种标准分数系统，其量表是个9级的分数量表。它是以5为平均数，以2为标准差的一个量表。

标准十分，平均数为5，标准差为1.5。

标准二十分，平均数为10，标准差为3。

常用标准分数
标准分数	平均数	标准差
Ｚ分数	样本平均数	样本标准差SD
Ｔ分数	50	10
标准九分	5	2
标准十分	5.5	1.5
标准二十分	10	3
离差智商	100	15（韦氏）

四、智商及其意义

若儿童的心理年龄高于其生理年龄，则智力较一般儿童高，若心理年龄低于其生理年龄，则智力较一般儿童低。但在实践中发现，单纯用心理年龄来表示智力高低的方法缺乏不同年龄儿童间的可比性。

（一）比率智商

比率智商（IQ）被定义为心理年龄与实足年龄之比。比率智商的计算公式是IQ＝（MA／CA）×100。

不符合比率智商含义的说法是：①心理年龄除以实足年龄所得的商数；②实足年龄除以心理年龄所得的商数；③被试成绩与平均数之差除以标准差所得的商数；④被试成绩除以标准差所得的商数。

由于个体智力增长是一个由快到慢再到停止的过程，即心理年龄与实足年龄不同步增长，所以比率智商并不适合于年龄较大的被试者。

（二）离差智商

韦克斯勒将离差智商的平均数定为100，标准差定为15。

离差智商的优点是：①建立在统计学的基础之上；②表示的是个体智力在年龄组中所处的位置；③表示的是智力高低的一种理想的指标。

离差智商表示的是个体智力在年龄组中所处的位置。

IQ＝100十15Z’＝100十15（X－）／SD是离差智商的计算公式。

从不同测验获得的离差智商只有当标准差相同或接近时才可以比较。

两种智商及其计算公式
智商	计算公式
比率智商	IQ＝（MA／CA）×100
离差智商（韦氏）	IQ＝100十15（X－）／SD

常模分数表示

一、转换表法

最简单而且最基本的表示常模的方法就是转换表，有时也叫常模表。

测验的使用者利用转换表可将原始分数转换为与其对应的导出分数，从而对测验的分数做出有意义的解释。

二、剖面图法

剖面图是将测验分数的转换关系用图形表示出来，从而可以很直观地看出被试者在各个分测验上的表现及其相对的位置。

测验信度

概念

一、信度的定义

信度是指在不同时间内用同一测验（或用另一套相等的测验）重复测量同一被试者，所得结果的一致程度。信度只受随机误差的影响。

在测量理论中，信度被定义为：一组测量分数的真分数方差与总方差（实得分数的方差）的比率，即rxx＝S_T²/ Sx²。

二、信度的指标

（一）信度系数与信度指数

公式rxx＝rx_T²＝S_T²／Sx²和公式rx_T＝Sr／Sx表明信度指数的平方就是信度系数。

（二）测量标准误

SE＝Sx公式中SE为测量的标准误，Sx是所得分数的标准差，r_xx为测验的信度系数。从公式中可以看出，测量的标准误与信度之间的关系是：①信度越低，标准误越大；②信度越高，标准误越小。

评估方法

估计信度的方法一般有：①重测信度；②复本信度；③内部一致性信度；④评分者信度。

一、重测信度

使用同一测验，在同样条件下对同一组被试者前后施测两次测验，求两次得分间的相关系数，叫重测信度，又称稳定性系数。

用重测法估计信度，最适宜的时距随测验的目的、性质和被试者的特点而异，一般是2～4周较宜，间隔时间最好不超过6个月。

二、复本信度

复本信度又称等值性系数。它是以两个等值但题目不同的测验（复本）来测量同一群体，然后求得被试者在两个测验上得分的相关系数。复本信度反映的是测验在内容上的等值性。

如果复本信度考虑到两个复本实施的时间间隔，并且两个复本的施测相隔一段时间，则称：①重测复本信度；②稳定与等值系数。

复本信度的缺点有：①如果测量的行为易受练习的影响，则复本信度只能减少而不能完全消除这种影响；②由于第二个测验只改变了题目的内容，已经掌握的解题原则可以很容易地迁移到同类问题；③对于许多测验来说，建立复本是十分困难的。

三、内部一致性信度

（一）分半信度

分半信度通常是在测验实施后将测验按奇、偶数分为等值的两半，并分别计算每位被试者在两半测验上的得分，求出这两半分数的相关系数。这个相关系数就代表了两半测验内容取样的一致程度。

斯皮尔曼一布朗公式rxx＝2r_hh/(1＋r_hh)式中r_hh为一半分数的相关系数，r_xx为测验在原长度时的信度估计值。

（二）同质性信度

同质性信度主要代表测验内部所有题目间的一致性。

K－R₂₀公式、K－R₂₁公式有别于克伦巴赫 a系数的是，它们只能用于是非题。

四、评分者信度

一般要求在成对的受过训练的评分者之间平均一致性达到0.90以上，才认为评分是客观的

正确的描述是：①随机抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根据每份测验卷的两个分数计算相关，即得评分者信度；②所有题目看起来好像测量同一特质，但相关很低或为负相关时，则测验为异质的；③人的多数心理特征如智力、性格、兴趣等，具有相对的稳定性，间隔一段时间，不会有很大变化；④不同的信度反映测验误差的不同来源。

信度与测验分数解释

一、解释真实分数与实得分数的相关

rxx为信度系数。下列情况属于极端情况：①rxx＝0；②rxx＝1.00。

二、确定信度可以接受的水平

确定可以接受的信度水平的一般原则是，当rxx＜0.70时，测验不能用于对个人做出评价或预测，而且不能作团体比较。0.70≤rxx＜0.85时，可用于团体比较；rxx≥0.85可用于个人和团体

三、解释个人分数的意义

信度系数在解释个人分数的意义时的作用是：①估计真实分数的范围；②了解实得分数再测时可能的变化情形。

“大约有 95％的可能性真分数落在所得分数±1.96SE的范围内，或有5％的可能性落在范围之外”的描述，其置信区间为X－1.96SE ＜ X_T≤X＋1.96SE。

四、比较不同测验分数的差异

甲被试在韦氏成人智力测验中言语智商为102，操作智商为110。已知两个分数都是以100为平均数，15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和 0.88，那么甲被试的操作智商不显著高于言语智商。

影响因素

一、样本特征

一般而言，若获得信度的取样团体较为异质的话，往往会高估测验的信度。

二、测验长度

一般来说，在一个测验中增加同质的题目，可以使信度提高。下列描述中正确的是：①测验越长，测验的测题取样或内容取样就越有代表性；②测验越长，被试者受猜测因素的影响就越小；③测验太长，有时反而会引起被试者的疲劳和反感而降低可靠性。

一个包括 40个题目的测验信度为 0.80，欲将信度提高到 0.90，通过斯皮尔曼一布朗公式的导出公式计算出至少应增加50个题数。K=[0.9(1-0.8)]/[0.8（1-0.9）]=2.25,即要取得0.9的信度，测验长度应为原来的2.25倍，即需增加40×2.25－40=50，习题74的正确选择应为Ｄ。

三、测验难度

对于不同平均能力水平的团体，题目的难度会影响信度系数。

洛德（Lord）提出在学绩测验中，为了保证其可靠性，各类选择题的理想平均难度为：五择一测题，0.70；四择一测题，0.74；三择一测题，0.77；二择一题，0.85。

四、时间间隔

以再测法或复本法求信度，两次测验相隔时间越短，其信度系数越大。

测验效度

概念

一、效度的定义

在心理测验中，效度是指所测量的与所要测量的心理特点之间符合的程度，或者简单地说是指一个心理测验的准确性。

在测验理论中，效度被定义为在一组测量中，与测量目标有关的真实方差（或称有效方差）与总方差的比率。

二、效度的性质

效度具有两个性质：①相对性；②连续性。

效度具有相对性，因此，在评鉴测验的效度时，必须考虑测验的目的与功能。

[专栏5-4] 信度和效度的关系

信度与效度的关系可表述为：①信度是效度的必要而非充分条件；②效度是受信度制约的。

评估方法

美国心理学会在1974年发行的《教育与心理测量之标准》一书中将效度分为几个大类：即：①内容效度；②构想效度；③效标效度。

一、内容效度

（一）什么是内容效度

内容效度指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。

（二）内容效度的评估方法

内容效度的评估方法有：①专家判断法；②统计分析法；③经验推测法。

1．专家判断法

专家判断法，就是请有关专家对测验题目与原定内容的符合性做出判断，看测验的题目是否代表规定的内容。如果专家认为测验题目恰当地代表了所测内容，则测验具有内容效度。因此，内容效度有时又称逻辑效度。

为了使内容效度的确定过程更为客观，弥补不同专家对同一测验的判断可能不一致，可采用的步骤是：①定义好测验内容的总体范围；②编制双向细目表；③制定评定量表来测量测验的整个效度。

2．统计分析法

除了描述性语言外，内容效度的确定也可采用一些统计分析方法，如：①计算两个评分者一致性；②复本相关；③再测法。

3．经验推测法

（三）内容效度的特性

在编制测验时，效度是重要的要考虑的特性。如果是编制最高行为测验，除了内容效度，也要求有较高的表面效度。相反，典型行为测验却要求较低的表面效度。

二、构想效度

（一）什么是构想效度

构想效度是：①构思效度（结构效度）；②主要涉及的是心理学的理论概念问题；③指测验能够测量到理论上的构想或特质的程度；④测验的结果是否能证实或解释某一理论的假设、术语或构想，解释的程度如何。

（二）构想效度的估计方法

构想效度的估计方法包括：①对测验本身的分析；②测验间的相互比较；③效标效度的研究证明；④实验法和观察法证实。

1．对测验本身的分析

可以作为构思效度证据的有：①测验的内容效度；②测验的内部一致性指标；③分析被试者对题目的反应特点。

2．测验间的相互比较

可以作为构思效度的测验间比较的有：①相容效度；②区分效度；③因素分析法。

计算两种测验之间得分的相关，其中一种测验是待研究效度的，另一种是已有效度证据的成熟的测验，但两者测量的是同一种心理特质，假如相关高，说明新测验所测量的特质确实是老测验所反映的特质或行为。这种方法叫相容效度。

3．效标效度的研究证明

4．实验法和观察法证实

三、效标效度

（一）什么是效标效度

又称实证效度。效标效度反映的是测验预测个体在某种情境下行为表现的有效性程度。它可分为：①同时效度；②预测效度。

在检验一个测验的效标效度时，难点在于找到合适的效标。因此效标的选择至关重要，一个好的效标必须具备如下条件：①效标必须能最有效地反映测验的目标，即效标测量本身必须有效；②效标必须具有较高的信度，稳定可靠，不随时间等因素而变化；③效标可以客观地加以测量，可用数据或等级来表示；④效标测量的方法简单，省时省力，经济实用。

（二）效标效度的评估方法

效标效度的主要评估方法有：①命中率法；②区分法；③相关法。

1．相关法

相关法是求测验分数与效标资料间的相关，这一相关系数称为效度系数。根据变量的不同，可选用的计算方法有：①积差相关法；②点二列相关公式；③二列相关公式；④贾斯朋（Juspen）多系列相关公式。

2．区分法

区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。

3．命中率法

命中率法是当测验用来做取舍的依据时，用其正确决定的比例作为效度指标的一种方法。命中的情况是指：①预测成功而且实际也成功；②预测失败且实际上也失败。

功能

一、预测误差

效度系数的实际意义常常以决定系数来表示，如测验的效度是 0.80，则测验的总方差中有64％的方差是测验分数的方差。如果某测验的效度是0.70，则在测验中无法作出正确预测的比例是0.51。

Sest＝S_y中，r_xy²代表效度系数的平方，即决定系数，S_y为效标成绩的标准差。

二、预测效标分散

Y ＝ a + b_xyＸ式中Y是预测的效标分数

三、预测效标指数

预测效率指数 E值的大小表明使用测验比盲目猜测能减少多少误差。如一个测验的效度系数为 0.80，E＝40，这表明由于该测验的使用，使得我们在估计被试者的效标分数时减少了40％的误差。

影响因素

一、测验本身的因素

要保证测验具有较高效度，测验本身的因素要做到：①测验材料必须对整个内容具有代表性；②测题设计时应尽量避免容易引起误差的题型（如是非题）；③测题难度要适中，具有较高的区分度；④测验长度要恰当，测题的排列应先易后难。

二、测验实施中的干扰因素

测验实施中的干扰因素包括：①主试者的影响因素；②测验情境；③其他干扰因素；④被试者的影响因素。

三、样本团体的性质

（一）样本团体的异质性

如果其他条件相同，样本团体越同质，分数分布范围越小，测验效度就越低。

（二）干涉变量

样本团体的性质包括年龄、性别、教育水平、智力、动机、兴趣、职业和任何有关的特征。由于这些特征的影响，使得测验对于不同的团体具有不同的预测能力，故测量学上称这些特征为干涉变量。

美国心理学家吉赛利（E.E.Ghiselli）提出了如何找出干涉变量的一套方法，它们是：

① 用回归方程求得每个人的预测效标分数，将该分数与实际效标分数相比较，获得差异分数D。如果D的绝对值很大，说明测验中可能存在干涉变量；

② 根据样本团体的组成分析，找出对照组，分别计算效度，从而找出干涉变量；

③ 对于欲测团体，根据某些易见的干涉变量将其区分为预测性高和预测性低的两个亚团体。对于预测性高的团体，获得的测验效度会有所提高。

四、效标的性质

效标与测验分数之间的相关，用皮尔逊积差相关系数的前提是假设两个变量的关系是线性的分布。

效标测量本身的可靠性如何亦是值得考虑的一个问题。效标测量的可靠性即效标测量的信度。

测量应用

项目分析

一般来说，测验的项目分析包括定性分析和定量分析。

项目的定性分析包括考虑项目的内容效度，题目编写的恰当性和有效性等。

项目难度

一、定义

难度是指项目的难易程度。用P代表。P值越大，难度越低。

在能力测验中通常反映难度水平的指标，在非能力测验（如人格测验）中，类似的指标称通俗性。

在200个学生中，答对某项目的人数为120人，则该项目的难度为0.6。

二、计算方法

（一）二分法记分的项目

计算项目难度的公式如下：①P＝R/N×100％；②P＝（P_H＋P_L）/2；③P＝X/Xmax×100％。

在370名被试者中，选为高分组和低分组的被试者各有100人，其中高分组有70人答对第1题，低分组有40人答对第1题，则第1题的难度为0.55。

吉尔福特为了平衡机遇对难度的影响，提出的难度校正公式是Cp＝（KP-1）/（K-1）。

（二）非二分记分的项目

数学测验的第7题满分为15分，该题考生的平均得分为9.6分，则该题的难度为0.64。

三、难度水平的确定

（一）项目的难度

难度P值越接近于0或接近于1，越无法区分被试者之间能力的差异。相反，P值越接近于0.50，区别力越高。为了使测验具有更大的区别力，应选择难度在0.50左右的试题比较合适，各题难度应在0.50±0.20之间。

（二）测验的难度

项目区分度

一、定义

项目区分度也叫鉴别力，是指测验项目对被试者的心理特性的区分能力。

二、计算方法

（一）鉴别指数

鉴别指数的计算步骤为（2-1-3-4）：（1）确定高分组与低分组，每一组取答卷总数的27％；（2）按测验总分高低排列答卷；（3）分别计算高分组与低分组在该项目上的通过率或得分率；（4）按下列公式估计出项目的鉴别指数：D＝P_H－P_L。

1965年，美国测验专家伊贝尔（L.Ebel）根据长期的经验提出用鉴别指数评价项目性能的标准，鉴别指数D为0.19以下，说明该项目差，必须淘汰。

（二）相关法

计算区分度最常用的方法是相关法，常用的相关法有：①点二列相关；②二列相关；③ф相关；④积差相关。

1．点二列相关：点二列相关适用于一类变量为二分称名变量，另一类变量为连续变量的成对变量的相关计算。

2．二列相关：二列相关适用于两个连续变量，但其中一个变量被人为分成两类的相关计算。

3．Ф相关法：Ф相关适用于两个变量均为二分称名变量的相关计算。

三、区分度与难度的关系

难度与区分度的关系，一般来说，较难的项目对高水平的被试者区分度高，中等难度的项目对中等水平的被试者区分度高。

项目难度的分布一般以常态分布为好，这样不仅能保证多数项目具有较高的区分度，而且可以保证整个测验对被试者具有较高的区分能力。

测验编制程序

测验目标分析

一、测验的对象

在编制测验前首先要明确测量的对象，也就是该测验编成后要用于哪些团体。只有对受测者的如下几方面心中有数，编制测验时才能有的放矢：①年龄；②受教育程度；③社会经济水平；④阅读水平。

二、测验的用途

测验用途不同，编制测验时的取材范围以及试题难度等也不尽相同。在测验编制前就应明确所编出的测验是要对被试者做：①描述；②诊断；③选拔；④预测。

（一）显示性测验

显示性测验是指测验题目和所要测量的心理特征相似的测验。古德纳夫曾经将其分为样本测验和标记测验。

（二）预测性测验

三、测验的目标

心理测验的目标是指编制的测验是测什么的，即用来测量什么样的心理变量或行为特征。

心理测验的目标分析以测验不同而异，一般可分为：①工作分析；②对特定概念下定义；③确定测验的具体内容。

对于选拔和预测功用的预测性测验，它的主要任务就是要对所预测的行为活动作具体分析，我们称之为任务分析或工作分析（job analysis）。这种分析包括如下步骤：①确定哪些心理特征和行为可以使要预测的活动达到成功；②建立衡量被试者是否成功的标准，这个标准我们称之为效标。

测题编写

一、搜集资料

心理测验题目的来源应该排除直接翻译国外测验的题目。题目来源分为三方面：①已出版的标准测验；②理论和专家的经验；③临床观察和记录。

二、命题的一般原则

心理测验命题的一般原则可以从几方面来考虑：①内容；②文字；③理解；④社会敏感性。

（一）内容方面

心理测验命题在内容方面的主要要求是：①内容符合测验的目的；②避免贪多而乱出题；③内容取样要有代表性；④题目间内容相互独立。

（二）文字方面

心理测验命题在文字方面的主要要求是：①使用准确的当代语言；②语句简明扼要；③排除与答案无关的因素；④最好是一句话说明一个概念。

（三）理解方面

心理测验命题在理解方面的主要要求是：①有确切的答案；②除创造力测验和人格测验外不应具有引起争议的可能；③内容不要超出受测团体的知识水平和理解能力；④格式要不被人误解。

（四）社会敏感性方面

有些测验必须涉及一些社会敏感性问题，菲力普（Phillips，D.L）列举了值得参考的几个策略：①命题时假定被试者具有某种行为；②命题时假定规范不一致；③指出该行为是常见的，虽然是违规的。

三、测题的编制要领

（一）选择题

选择题要编好题干，也要编好选项，必须注意：①题干问题明确，避免与选项用词一致；②选项简明扼要，长度相等；③每题只给一个正确答案；④选项最好用同一形式。

（二）是非题

编制是非题应注意：①内容以有意义的概念、事实或基本原则为基础；②每道题只能包舍一个概念；③尽量避兔否定的叙述，尤其是双重否定；④“是”、“非”题的数目应基本相等，随机排列。

（三）简答题

编制简答题的原则包括：①宜用问句形式；②填充形式的空格不宜太多；③每题应只有一个正确答案。

编制简答题的原则不包括将其操作化。

（四）操作题

编制操作测验的原则有：①明确所要测量的目标，并将其操作化；②尽量选择真实性程度较高的项目；③指导语要简明扼要；④制订评分标准，确定计分方法。

测验编排和组织

一、合成测验

（一）选择与审定试题

1．选择试题的形式

在选择题目形式时，需要考虑：①测验的目的；②材料的性质；③接受测验的团体的特点；④各种实际因素。

2．审定题目

审定试题要注意题目的：①范围应与测验计划的双向细目表相一致；②数量要比最后所需的数目多一倍至几倍；③难度必须符合测验目的的需要；④说明必须清楚明白。

（二）测题的编排

测验编排的一般原则应排除答案混合排列。测验编排的一般原则包括：①难度逐步上升，先易后难；②将同类型的测题组合在一起；③依各种类型测题本身的特点编排题目与选项。

测题常见的排列方式有：①并列直进式；②混合螺旋式。

二、预测与项目分析

预测应注意：①对象应取自将来正式测验准备应用的群体；②实施过程与情境应力求与将来正式测验时的情况相近似；③时限可稍宽一些，最好使每个被试者都能将题目做完；④预测过程中，随时记录被试者的反应情形。

三、信度和效度考察

四、常模制订

五、编写指导手册

测验指导手册的内容有：①测验的目的和功用；②编制的理论背景，选材的原则、方法；③实施测验的说明，测验的标准答案和记分标准；④测验的心理计量学特征、常模资料。

心理测验的使用

主试的资格

一、知识结构

主试者的知识结构是指开展心理测验工作所必须具备的：①心理学基础知识；②心理学专业理论知识；③本行业的专业知识；④心理测验专业技能。

二、专业理论知识和专业技能

（一）专业理论知识

主试者的心理测验专业理论知识，具体言之，包括：①对心理测验的特点、性质和作用的认识；②对心理测验局限性的认识；③了解测验的基本特征；④熟悉保证心理测验标准化的必要性。

（二）专业技能

主试者必须具有实际操作心理测验的专业技能和经验，接受严格、系统的心理测验专业训练，熟悉有关测验的如下方面：①内容；②适用范围；③测验程序；④记分方法。

三、职业道德

主试者的职业道德包括：①测验的保密；②测验的控制使用；③测验中个人隐私的保护。

心理测验的保密涉及到：①测验内容；②测验结果；③个人隐私。

测验的选择

选择测验必须注意，所选测验必须：①适合测量的目的；②符合心理测量学的要求。

一、所选测验必须适合测量的目的

二、所选测验必须符合心理测量学的要求

测验前的准备及注意事顶

一、测验的准备工作

测验前的准备工作主要包括：①预告测验；②准备测验材料；③熟悉测验指导语；④熟悉测验的具体程序。

二、测验中主试的职责

测验中主试者的职责是指：①应按照指导语的要求实施测验；②测验前不讲太多无关的话；③主试者不应对被试者的反应做出任何暗示性反应；④对特殊问题要有心理准备。

三、建立协调关系

在心理测验实施中，主试者和被试者之间建立了一种友好的、合作的、能促使被试者最大限度地做好测验的关系，叫协调关系。

测验实施的程序及要素

一、指导语

测验指导语一般组成为：①如何选择反应形式；②如何记录这些反应；③时间限制；④给例题，有时告知被试者测验目的。

二、时限

一般来说，心理测验除典型行为测验以外，都有时限。

三、测验的环境条件

对于测验的环境条件：①必须完全遵从测验手册的要求；②记录下任何意外的测验环境因素；③在解释测验结果时也必须考虑这一因素。

安排测验材料不是对测验环境条件的要求。

被试误差及控制方法

一、应试技巧与练习效应

（一）应试技巧

被试者对测验的经验或应试技巧会影响测验成绩，“测验油子”的表现有：①能觉察出正确答案与错误答案的细小差别；②懂得合理分配测验时间；③常常是各种题型都见过；④熟悉测验的程序。

（二）练习效应

受练习效应影响较大的情况，具体表现为：①智力较高者；②重复实施相同的测验；③着重速度的测验。

二、动机与焦虑因素

（一）应试动机

受应试动机影响不太大的测验是投射测验。

（二）测验焦虑

适度的焦虑会提高智力测验、成就测验和能力倾向测验的成绩。

研究表明，如下者，测验焦虑较高：①对自己能力没有把握；②抱负水平过高，求胜心切；③缺乏自信、患得患失、情绪不稳定；④测验成绩关系重大，压力过大。

三、反应定势

反应定势是指独立于测验内容的反应倾向，即由于每个人回答问题的习惯不同，而使能力相同的被试者得到不同的测验分数。

作测验时，几种常见的反应定势有：①求“快”与求“精确”；② 喜好正面叙述；③喜好较长选项；④喜好特殊位置；猜测。

（一）求“快”与求“精确”的反应定势

除非“反应速度”本身即为重要的研究目标，否则让被试者有充分的时间反应，同时注明每题的答题时间，可以减少如下定势的影响：①求“快”；② 求“精确”。

（二）喜好正面叙述的反应定势

在编制是非题时，“是”、“否”题大致相等或答“否”题略多，是控制肯定定势的有效方法。

（三）喜好特殊位置的反应定势

在测验编制过程中，正确答案的位置在整个测验中出现在各位置的概率相等，就可以控制喜好特殊位置定势的影响。

（四）喜好较长选项的反应定势

测验中，有些被试者认为选项长、内容多，一般是正确答案，在无法确定何者正确时，有偏好长选项的反应定势。在编制测验时，只要我们尽量使选项的长度一致，就不难避免这类问题。

（五）猜测的反应定势

测验的评分

一、原始分数的获得

无论哪种测验，为使评分尽可能客观应准确无误地计分、合分。

二、原始分数的转换

测验结果的报告

一、测验分数的综合分析

测验分数一般应是一个范围而不是一个确定的点。如在韦氏智力测验中，通常是用测得的IQ值加减5（85％～90％的可信限水平）的方法判断IQ值的波动范围。

不能把分数绝对化，更不能仅仅根据一次测验的结果轻易下结论。一个人在任何一个测验上的分数，都是他的遗传特征、测验前的学习与经验以及测验情境的函数。

不能把分数绝对化，更不能仅仅根据一次测验的结果轻易下结论，要做到：①考虑个人在测验前的经历；②考虑测验情境；③有常模和信度、效度资料；④不直接比较来自不同测验的分数。

对测验分数做出确切的解释，只有常模资料是不够的，还必须有测验的信度和效度资料，在解释测验分数时，一定要依据从如下获得的资料：①最匹配的情境；②最相近的团体。

为了使不同测验分数可以相互比较，在经典测验理论的指导下，测验等值的计算方法主要有两大类：一类叫等百分位等值法；另一类叫线性等值法。线性等值法计算就是用相同的标准分数作等值的基础。

二、报告分数的具体建议

为了使被试者本人以及与被试者有关的人，如家人、老师、雇主等，能更好地理解分数的意义，在报告分数时要注意：①应告诉分数的解释和建议，避免使用专业术语；②保证当事人知道该测验测量或预测什么，与什么团体比较，如何运用他的分数；③考虑给当事人带来的心理影响；④让当事人积极参与测验分数的解释。

温馨提示：

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：营养时光 > 《A、考试必备》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

营养时光

关注对话

TA的最新馆藏

腰围超过这个数，每增长一寸，癌症风险增8倍！
研究人员发现腰围过大会增加心脏病复发风险
刘德华都在用的「16 8断食法」，真的好用吗？
不吃晚餐真能减肥吗？最准确的答案是...
细嚼慢咽的9个神话
搞定头号杀手

喜欢该文的人也喜欢更多

热门阅读换一换

第五章 心理测量学知识

第五章心理测量学知识