研究数据的统计分析

海边的米菲馆 2017-05-17

展开全文

一、测量效度和测量信度

（一）测量效度

涵义：测验效度指的是“证据和理论在多大程度上支持对计划使用的测验产生的分数的解释”（《教育与心理测验标准》）

可用来说明从个体测验或其他测量分数推论效度的五种证据和理论：

（1）得自测验内容的证据，即证明测验项目的内容与要测量的目的、变量相一致。研究者需提供测验项目的内容代表了测量内容的证据。主要思考这些方面：测量的目的是什么？要测量的变量是什么？要测量的变量是否与测量的目的相一致？是否清楚界定每一个变量？变量的定义与用于测量的试题的内容是否一致？这种与内容有关的测验效度证据在成绩测验和各种能力及水平测验中尤为重要。如它在研究不同的教学方法对学生学习学习影响时就特别重要。

（2）得自内部结构的证据。这种效度的证据多发上在分析多项选择项目时，要求所有项目应共同反映一个变量，应答者在同一项目上的反映应与其他项目上的反映相一致。假设一个包含10个项目的测验能测量教师参与持续性专业发展的愿望。这10个项目都应该能测量这个概念。也就是说，教师以某种方式回答其中一个项目，那么就该以同样的方式回答其他项目，这需要用相关统计来检验。

（3）得自与其他变量的关系的证据，是建立在个体在测验中的分数和他们在另外一个测量中的分数之间的联系程度的基础上。得自与其他变量的关系的证据可以是预测性测验效度证据、收集测验效度复合证据和同时性测验效度证据。

（4）得自反应过程的证据，它可以证明受试者参与测验时运用的程序与测验所隐含的构念一致。这种证据一般采用访谈的方式，向受试者询问，获得以下结果：受试者参与测验时运用的程序与测量工具中的变量所隐含的构念是否一致？是否包含诱导性问题？是否包含具有心理威胁性的问题？

（5）得自测验后果的证据，即后果性测验效度证据。它是由测验所测量的构念和这一测量的用处中固有的价值与参加测验这、利用这些测验结果来作决定的人以及其他涉众的价值一致性的程度。如学生证在标准化测验中的低分数可能会影响他们被所报学校录取的机会，这种后果需要仔细分析以确定它们是否有正当的理由。

值得注意的是:没有不同类型的测验效度，只有不同类型的支持测验效度的证据。

（二）测量信度

1.信度与信度系数

如果一个测验或测量工具达到了没有测量误差的程度，那么，这个测量就是完全可信的。其中，测量误差E=真实分数T（理想测量的分）-实得分数X

信度（Reliability）即可靠性，它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示，大致可分为三类：稳定系数（跨时间的一致性），等值系数（跨形式的一致性）和内在一致性系数（跨项目的一致性）。大部分情况下，信度是以信度系数为指标。

一个教育测量的信度程度通常用相关系数表述。常常是同一被试样本所得到的两组资料的相关，理论上说就是真分数方差与实得分数方差的比值，公式为：

r(xx)=r^2(xt)=S^2(t)/S^2（x）

　　公式中r^2(xt)是真分数标准差与实得分数标准差的比值，称作信度指数，公式为：

r(xt)=S(t)/S(x)

　　由此可见，信度指数的平方就是信度系数。

若以信度系数来表示信度的大小。信度系数越大，表示测量的可信程度越大。信度系数的最低值是0，意味着没有信度；最高值为1，意味着绝对没有测量误差，最有信度。学者DeVellis(1991)认为，0.60～0.65（最好不要）；0.65～0.70（最小可接受值）；0.70～0.80（相当好）；0.80～0.90（非常好）。由此，一份信度系数好的量表或问卷，最好在0.80以上，0.70至0.80之间还算是可以接受的范围；分量表最好在0.70以上，0.60至0.70之间可以接受。若分量表的内部一致性系数在0.60以下或者总量表的信度系数在0.80以下，应考虑重新修订量表或增删题项。一般而言，在多数研究中，只要信度系数≥0.80就可以认为是可靠的。

2.信度分析的方法

检验信度的方法主要有以下四种：

　　（1）重测信度法

　　这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测，计算两次施测结果的相关系数。显然，重测信度属于稳定系数。重测信度法特别适用于事实式问卷，如性别、出生年月等在两次施测中不应有任何差异，大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变，这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次，被调查者容易受到各种事件、活动和他人的影响，而且间隔时间长短也有一定限制，因此在实施中有一定困难。

　　（2）复本信度法

　　复本信度法是让同一组被调查者一次填答两份问卷复本，计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外，在内容、格式、难度和对应题项的提问方向等方面要完全一致，而在实际调查中，很难使调查问卷达到这种要求，因此采用这种方法者较少。

　　（3）分半信度法

　　分半信度（split-half reliability）常用信度检验方法之一。反映测验项目内部一致性程度，即表示测验测量相同内容或特质的程度。具体分析是在测验后将测验项目分成相等的两组（两半），通常采用奇偶分组方法，即将测验题目按照序号的奇数和偶数分成两半，然后计算两项项目分之间的相关。相关越高表示信度高，或内部一致性程度高。这种方法一般不适用于事实式问卷（如年龄与性别无法相比），常用于态度、意见式问卷的信度分析。在问卷调查中，态度测量最常见的形式是5级李克特（Likert）量表。进行折半信度分析时，如果量表中含有反意题项，应先将反意题项的得分作逆向处理，以确保各题项得分方向的一致性，然后将全部题项按奇偶或前后分为尽可能相等的两半，计算二者的相关系数（rhh，即半个量表的信度系数）。

当两部分方差相等（方差齐性检验呈齐性时），可以用斯皮尔曼-布朗公式加以校正：

r=2rhh/(1+rhh)

rhh，即半个量表的信度系数；r为整个测验的信度值。

如若方差齐性检验呈不齐信，则可采用以下公式：

弗朗那根公式：r=2（1-（S1+S2)/S

　　S1 和S2 分别表示被试两半测验上分数的变异值，S 表示全体被试在整个测验上总得分的变异数

卢纶公式：S'/S

r为整个测验的信度值，S’为同一组被试在两半测验上得分之差的变异数，S表示全体被试在整个测验上的总得分的变异数

（4）α信度系数法

柯隆巴哈（Cronbach 1951）提出计算一个测量系统（问卷或测验）的信度称为Cronbachα系数（简称α系数），是目前社会科会研究最常使用的信度。当一个研究主题（或构面）由很多项目组合，每个问项都与主题相关，由总分的变异数与问项的变异数做为评量信度的指标即为α系数。其公式为：

α=(n/n-1)*(1-(∑S_i²)/S_T²)

其中，n为量表中题项的总数，S1 为第1题得分的题内方差，ST 为全部题项总得分的方差。从公式中可以看出，α系数评价的是量表中各题项得分间的一致性，属于内在一致性系数。这种方法适用于态度、意见式问卷（量表）的信度分析。

二、统计分析中分数的类型

（一）连续分数和衍生分数

我们把数目不定且有序的测量分数称作连续分数。如大多数的成绩测量、能力测量、态度测量和性格测量等所得的分数。连续分数的一种类型是原始分数，另一种类型是衍生分数。原始分是测量所得的直接，如果单单就原始分进行意义上的解释是很困难的，不能简单的说，某个分数好还是不好，高还是滴。所以，往往还要报告一种或几种衍生分数。衍生分数提供了每个个体得分相对于一个比较组而言的定量的比较。报告中的衍生分数主要有五种，即年龄当量、年级当量、百分位数、标准分数和等级分数。

1. 年龄当量

一个学生的年龄当量分数通常指与该生获得同样原始分的其他学生的年龄水平。这些其他学生的年龄水平往往能代表整个地区或整个国家的年龄水平，是个大样本，称为常模样本。研究样本中，每个学生的原始分数都可以在常模中找到。若某一学生的原始得分是30，其在常模中对应的年龄当量是12.0，那么说明该生所得的分数相当于常模中12岁学生的平均水平。

2. 年级当量

年级当量同年龄当量的意义相似。如一原始分数为30的学生在常模中找到的对应年级当量是4年级，那么以为着该生的得分与四年级学生的平均水平一致。

3.百分位数

百分位数代表研究中样本中等于多低于其原始分数的个体的百分比。譬如，样本中58%的学生原始分为70分或低于70分，那么原始分数70分所代表的百分位数为58，也就是说，得分为70分的学生在研究样本中处于第58个百分位上。

4.标准分数

标准分的意义与百分位数的意义相似。标准分数的计算是：从研究样本的平均分数(M)中减去某个个体的原始分数(T)，再除以研究样本的标准差(SD)。公式如下：

典型的例子，如斯坦福-比纳智力量表。其平均分为100，标准差为16，那么其标准分就是100-T/16.

5.等级分数

等级分数表示某个个体在测量中相对于其他人的位置。教育中常用等级分数。如学校的排名、班级的排名、学生学业成绩的排名、比赛中的名次等等。需注意的是，等级分数通常是不等的区间。如某班一等和二等的学生学业成绩可能差异很小，而另一个班的一等和二等则可能反映出学业成绩的巨大差异。

（二）增值分数

个体的学习与发展在不同的时间点之间会发生变化。增值分数指的是个体的学习或发展在这一个时间点到下一个时间点在测量分数上产生的差异值。

（三）类别分数

类别是测量时会产生离散的、无顺序的值的变化。类别不能排序，它与连续分数或等级分数相比，必须用不同的统计技术来分析。

三、如何进行描述统计

（一）平均数、中位数和众数

1.相同点

平均数、中位数和众数这三个统计量的相同之处主要表现在：都是来描述数据集中趋势的统计量；都可用来反映数据的一般水平；都可用来作为一组数据的代表。

2.不同点

它们之间的区别，主要表现在以下方面。

（1）定义不同

平均数：一组数据的总和除以这组数据个数所得到的商叫这组数据的平均数。

中位数：将一组数据按大小顺序排列，处在最中间位置的一个数叫做这组数据的中位数。

众数：在一组数据中出现次数最多的数叫做这组数据的众数。

（2）求法不同

平均数：用所有数据相加的总和除以数据的个数,需要计算才得求出。

中位数：将数据按照从小到大或从大到小的顺序排列，如果数据个数是奇数，则处于最中间位置的数就是这组数据的中位数；如果数据的个数是偶数，则中间两个数据的平均数是这组数据的中位数。它的求出不需或只需简单的计算。

众数：一组数据中出现次数最多的那个数，不必计算就可求出。

（3）个数不同

在一组数据中，平均数和中位数都具有惟一性，但众数有时不具有惟一性。在一组数据中，可能不止一个众数，也可能没有众数。

（4）呈现不同

平均数：是一个“虚拟”的数，是通过计算得到的，它不是数据中的原始数据。

中位数：是一个不完全“虚拟”的数。当一组数据有奇数个时，它就是该组数据排序后最中间的那个数据，是这组数据中真实存在的一个数据；但在数据个数为偶数的情况下，中位数是最中间两个数据的平均数，它不一定与这组数据中的某个数据相等，此时的中位数就是一个虚拟的数。

众数：是一组数据中的原数据，它是真实存在的。

（5）代表的意义不同

平均数：反映了一组数据的平均大小，常用来一代表数据的总体 “平均水平”。

中位数：像一条分界线，将数据分成前半部分和后半部分，因此用来代表一组数据的“中等水平”。

众数：反映了出现次数最多的数据，用来代表一组数据的“多数水平”。

这三个统计量虽反映有所不同，但都可表示数据的集中趋势，都可作为数据一般水平的代表。

（6）特点不同

平均数：与每一个数据都有关,其中任何数据的变动都会相应引起平均数的变动。主要缺点是易受极端值的影响，这里的极端值是指偏大或偏小数，当出现偏大数时，平均数将会被抬高，当出现偏小数时，平均数会降低。

中位数：与数据的排列位置有关，某些数据的变动对它没有影响；它是一组数据中间位置上的代表值，不受数据极端值的影响。

众数：与数据出现的次数有关，着眼于对各数据出现的频率的考察，其大小只与这组数据中的部分数据有关，不受极端值的影响,其缺点是具有不惟一性，一组数据中可能会有一个众数，也可能会有多个或没有。

（7）功用不同

平均数：是统计中最常用的数据代表值，比较可靠和稳定，因为它与每一个数据都有关，反映出来的信息最充分。平均数既可以描述一组数据本身的整体平均情况，也可以用来作为不同组数据比较的一个标准。因此，它在生活中应用最广泛，比如我们经常所说的平均成绩、平均身高、平均体重等。

中位数：作为一组数据的代表，可靠性比较差，因为它只利用了部分数据。但当一组数据的个别数据偏大或偏小时，用中位数来描述该组数据的集中趋势就比较合适。

众数：作为一组数据的代表，可靠性也比较差，因为它也只利用了部分数据。。在一组数据中，如果个别数据有很大的变动，且某个数据出现的次数最多，此时用该数据（即众数）表示这组数据的“集中趋势”就比较适合。

（二）频数和百分比

频数和百分比常常用于可以分类的样本中。频数指的是样本中适合某一类别的个体的数量；百分比是指某一类别中个体的频数厨艺样本中个体的总数的结果。

（三）全距和标准差

1．全距

全距是用来表述个体分数变异程度或样本中大多数个体得分与平均数的差异程度。全距的计算是最高分数减去最低分数的差再加上1，即：Max-Min+1。

2.标准差

标准差（Standard Deviation），也称均方差（mean square error），是各数据偏离平均数的距离的平均数，它是离均差平方和平均后的方根，用σ表示。标准差是方差的算术平方根。标准差是个体分数偏离平均数程度统计的表达方式。平均数相同的，标准差未必相同。

如果测量中的个体分数形成正态概率分布，那么则遵循正态分布的规则：

距平均值小于一个标准差之内的数值范围，在正态分布中，在+1和-1的标准差之间，所占比率为全部数值之 68%；两个标准差之内的比率合起来为 95%；三个标准差之内的比率合起来为 99.7% 。称为“68-95-99.7 法则”。

在实际应用上，常考虑一组数据具有近似于正态分布的概率分布。

（四）相关统计

探讨变量间的关系，可以通过用利用相关统计计算出的相关系数来表示。如果只涉及两个变量，则计算二元相关统计。如果涉及到两个以上的变量间的关系，那么要进行多元回归分析。相关系数用r表示，r越大表明被测变量间的关系越大。

四、如何进行推断统计

推断统计，即从样本中的特征来推断总体，它使得研究者可以给予描述统计量对总体进行推断。推断统计常用于因果比较研究、相关研究和实验研究。

要得出推断出的结果是否具有推广性的结论，必须排除掉“结果是偶然性”的情况。面对这种情况，我们可以进行重复研究，但耗时耗力。而推断统计虽不如重复研究有说服力，但同样也以从样本中推断出研究结论的偶然性。我们把这种有样本被观察到的只是偶然的结果叫做零假设。针对此，我们用统计显著性，即p值来表达零假设为假的可能性大小。p值是指当总体平均数相同时，在样本平均数之间出现一定程度的偶然差异的概率百分比。p值越小，表明一定量的偶然差异出现的几率就越小，零假设为假的可能性就越大。

在教育研究中，一般认为p值为0.05就足以排除零假设了。处于研究的严谨性，如果p值正好等于0.05或大于0.05，那么结果的推广就值得注意了。

教育研究中的集中主要的推断统计：

1.t检验

t检验用于判断某测量中两个组之间的平均分数差异是否有可能是偶然出现的，或者是反映了两组所代表的两个总体平均分数的差异，还可以用来确定观察到的相关系数是否是偶然产生的。

t检验计算产生t值。一般而言，研究者较认同的是，产生0.05或更小p值水平的t值就足以推断出两组间平均分数的差异可以推广到研究中样本所代表的总体之中。当两组分数分布严重偏离正太曲线时，不能用t检验。

2.方差分析

方差分析避免了t检验只能比较两个平均数的弊端。方差分析是检验三个变量间的差异是偶然出现的可能性，也可以比较三个及以上平均数。它产生的推断统计量称为F值，将F值与特定的F分布表比较。如果F值超过了F分布表确定的一定的值，我们就可以排除零假设并且推断两三个平均分数之间的差异可以推广到总体中。但是方差分析并不能表达三个平均分数中的哪两个之间的差异具有推广性。

3.协方差分析

协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法。方差分析是从质量因子的角度探讨因素不同水平对实验指标影响的差异。一般说来，质量因子是可以人为控制的。回归分析是从数量因子的角度出发，通过建立回归方程来研究实验指标与一个（或几个）因子之间的数量关系。但大多数情况下，数量因子是不可以人为加以控制的。

4.卡方检验

t检验、方差分析和协方差分析适合用于连续分数和等级分数的数据，而不适合于类别分数。卡方检验则适合于检验类别分数的统计显著性。

X _--检验（chi-square test）或称卡方检验，是一种用途较广的假设检验方法。可以分为成组比较（不配对资料）和个别比较（配对，或同一对象两种处理的比较）两类。

5.参数检验、非参数检验

以上说谈到的检验统计显著性的方法，除了卡方检验都是显著性的参数检验。这些检验的前提是：测量中分数的间隔是相同的：围绕平均分数的分数分布是正态的；不同对比组的分数有相等的方差。

倘若间隔不相等，那么就可以使用显著性的参数检验，也可以用显著性的非参数检验。其中卡方检验就是最常用的非参数检验。

五、统计分析的程序

一些简单的描述分析和推断分析可以手工进行。有些比较复杂的统计分析需要借助一些专门的软件。在教育研究中，最常用的软件的SPSS。