显著性检验

航海王魯夫 2009-05-22

展开全文

第7章显著性检验的基本问题

教学目的与要求：通过本章讲授，使学生了解下列概念：观察到的显著水平（p_值）、检验时规定的显著水平标准、显著水平、临界值、检验规则、原假设和备择假设，知道什么是双尾检验，什么是左（右）单尾检验以及各自的适用场合，知道什么是显著性检验中的两类错误以及犯这类错误的概率的图示，掌握总体均值是否为某定值以及两点分布总体中一次试验成功率为某定值的检验问题，知道显著性检验中应当注意的问题。

重点内容与难点：

1．显著性检验的基本问题

2．总体均值为某定值的显著性检验

3．随机试验中某种事件出现的概率为某定值的显著性检验

§7.1 显著性检验的基本问题

1．显著性检验是除参数估计之外的另一类重要的统计推断问题。

2．显著性检验，又称假设检验：就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设（原假设）是否合理，即判断总体的真实情况与原假设是否显著地有差异。

或者说，显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异，还是由我们所做的假设与总体真实情况之间不一致所引起的。

3．显著性检验是针对我们对总体所做的假设做检验。

一、显著性检验的基本思想

显著性检验的基本思想可以用小概率原理来解释。

1．小概率原理：小概率事件在一次试验中是几乎不可能发生的，假若在一次试验中事件事实上发生了。那只能认为事件不是来自我们假设的总体，也就是认为我们对总体所做的假设不正确。

2．观察到的显著水平：由样本资料计算出来的检验统计量观察值所截取的尾部面积为。这个概率越小，反对原假设，认为观察到的差异表明真实的差异存在的证据便越强，观察到的差异便越加理由充分地表明真实差异存在。

3．检验所用的显著水平：针对具体问题的具体特点，事先规定这个检验标准。

4．在检验的操作中，把观察到的显著性水平与作为检验标准的显著水平标准比较，小于这个标准时，得到了拒绝原假设的证据，认为样本数据表明了真实差异存在。大于这个标准时，拒绝原假设的证据不足，认为样本数据不足以表明真实差异存在。

5．检验的操作可以用稍许简便一点的作法：根据所提出的显著水平查表得到相应的值，称作临界值，直接用检验统计量的观察值与临界值作比较，观察值落在临界值所划定的尾部内，便拒绝原假设；观察值落在临界值所划定的尾部之外，则认为拒绝原假设的证据不足。

二、原假设和备择假设

1．原假设：对总体所作的论断或推测，指观察到的差异只反映机会变异。记作H₀

2．备择假设：是指观察到的差异是真实的。记作H₁。

3．原假设和备择假设合在一起，应涵盖我们所研究的总体特征的所有可能性。

三、双尾检验和单尾检验

采用双尾检验还是采用单尾检验（以及左单尾还是右单尾），取决于备择假设的形式。

拒绝域的单、双尾与备择假设之间的对应关系

拒绝域位置	原假设	备择假设
双尾	H₀:θ＝θ₀	H₁:θ≠θ₀
左单尾	H₀:θ≥θ₀(不可能有θ>θ₀时，H₀:θ＝θ₀)	H₁:θ<θ₀
右单尾	H₀:θ≤θ₀(不可能有θ<θ₀时，H₀:θ＝θ₀)	H₁:θ>θ₀

四、显著性检验的两类错误

（一）显著性检验中的第一类错误及其概率

显著性检验中的第一类错误是指，原假设H₀:θ＝θ₀事实上正确，可是检验统计量的观察值却落入拒绝域，因而否定了本来正确的假设。这是弃真的错误。

发生第一类错误的概率（记作）也就是当原假设H₀:θ＝θ₀正确时检验统计量的观察值落入拒绝域的概率。显然，在双尾检验时是两个尾部的拒绝域面积之和；在单尾检验时是单尾拒绝域的面积。

(二)显著性检验中的第二类错误及其概率

显著性检验中的第二类错误是指，原假设H₀: θ＝θ₀不正确，而备择假设H₁: θ<θ₀或H₁: θ>θ₀是正确的，可是检验统计量的观察值却落入了接受域，因而没有否定本来不正确的原假设。这是取伪的错误。

发生第二类错误的概率（记作）是指，把来自θ＝θ₁(θ₁≠θ₀)的总体的样本值代入检验统计量所得结果落入接受域的概率。

（三）和的关系

当样本容量一定时，越小，就越大；反之，越大，就越小。

五、显著性检验的P_—值

若用计算机统计软件进行假设检验, 我们会见到P_—值。将算得检验统计量样本值查表得的概率是就是P_—值（在那里我们称之为观察到的显著水平）。

六、关于显著性检验的结果

(一) 显著性检验回答什么问题

我们所观察到的差异（是纯属于机会变异，还是反映了真实的差异？

1．如果显著性检验得到差异显著的结论这时并不能评价差异的大小和重要性。

2．显著性检验只能告诉我们差异是否在事实上存在，而不能回答差异产生的原因。

3．显著性检验不能检查我们对实验所作的设计是否有缺陷

（二）显著性检验回答问题的方式

在表述显著性检验结论的时候，应与检验的逻辑推理相符。

当检验统计量的观察值落在拒绝域时，我们应该说，样本资料显著地（或高度显著地）表明，差异是存在的。

（三）对观察到的显著水平数值的评价

七、显著性检验中的总体和样本

(一)显著性检验的对象是无限总体

(二)大样本可能会使检验统计量过分敏感

(三)从有限总体中抽取样本用于显著性检验时，必须作概率抽样

八、显著性检验的步骤

显著性检验的一般步骤或格式如下：

（1）提出假设

H₀：

H₁：

同时，与备择假设相应，指出所作检验为双尾检验还是左单尾或右单尾检验。

（2）构造检验统计量，收集样本数据，计算检验统计量的样本观察值

（3）根据所提出的显著水平，确定临界值和拒绝域

（4）作出检验决策

把检验统计量的样本观察值和临界值比较，或者把观察到的显著水平与显著水平标准比较；最后按检验规则作出检验决策。当样本值落入拒绝域时，表述成:“拒绝原假设”，“显著表明真实的差异存在”；当样本值落入接受域时，表述成：“没有充足的理由拒绝原假设”，“没有充足的理由表明真实的差异存在”。另外，在表述结论之后应当注明所用的显著水平。

§7.2 总体均值为某定值的显著性检验

总体均值的显著性检验可有双尾、左单尾、右单尾三种不同的情况。下面就总体分布的不同情况，总体方差是否已知的不同情况以及样本大小的不同情况分别介绍检验统计量和检验规则。

一、总体为正态分布，总体方差已知，样本不论大小

对于假设： = ，在成立的前提下，有检验统计量

如果规定显著性水平为，在双尾，左单尾，右单尾三种不同情形下，拒绝域分别为：① 和；② ；③ 。

二、总体分布未知，总体方差已知，大样本

对于假设： = ，在成立的前提下，如果样本足够大（ ≥30），近似地有检验统计量

如果规定显著性水平为，在双尾，左单尾，右单尾三种不同情形下，拒绝域分别为① 和；② ；③ 。

三、总体为正态分布，总体方差未知，小样本

对于假设Ｈ₀： = ，在成立的前提下，有检验统计量

如果规定显著性水平为，在双尾，左单尾，右单尾三种不同情形下，拒绝域分别为：① ；② ；③ 。

四、总体分布未知，总体方差未知，大样本

对于假设Ｈ₀： = ，在成立的前提下，如果总体偏斜适度，且样本足够大，近似地有检验统计量

如果规定显著性水平为，在双尾，左单尾，右单尾三种不同情形下，拒绝域分别为：① 和； ② ； ③ ,

§7.3 总体比例为某定值的显著性检验

总体比例指的是随机试验中某种指定事件出现的概率。随机试验中某种指定事件出现叫做“成功”，把一次试验中成功的概率记作。

对于假设 = ,在成立的前提下，如果，并且样本容量足够大，大到足以满足时，近似地有检验统计量

~ (0,1)

其中是样本比例。

如果规定显著性水平为，在双尾，左单尾，右单尾三种不同情形下，拒绝域分别为：

① 和； ② ； ③ 。

一、显著性检验的意义

为了便于理解，我们结合具体例子来说明显著性检验的意义。例如，目前我国大豆育种工作者认为，大豆籽粒蛋白质含量高于45%(记为 )的品种为高蛋白品种。某种子公司对一大豆新品种随机抽取5个样品进行测定，得平均蛋白质含量为 =46.5%， 1.5%。我们能否根据 1.5%就认定该大豆新品种就是高蛋白品种？结论是，不一定。

因为通过5个样品测定的蛋白质含量计算的样本平均数仅是该大豆品种蛋白质含量总体平均数的一个估计值。由于存在抽样误差，任何一个样品测定值，都可以表示为

（ 1，2，…，n）（4-1）

其中，为总体平均数，为抽样误差。

样本平均数为

(4-2)

（4-1）式表明，样本平均数包含了总体平均数与抽样误差二部分。

于是，

（4-3）

（4-2）式表明，是由两部分组成：一部分是两总体平均数的真实差异；另一部分是抽样误差。（）并不能代表新品种蛋白质含量总体平均数与标准含量之间的真实差异，我们称为表面差异。虽然真实差异未知，但表面差异是可以计算的，借助数理统计方法可以对试验误差作出估计。所以，可将表面差异与试验误差相比较间接推断真实差异是否存在，这就是差异显著性检验的基本思想。显著性检验的目的在于判明，表面差异主要是由真实差异造成的，还是由抽样误差造成的，从而得到可靠的结论。

又如，某地进行了两个水稻品种对比试验，在相同条件下，两个水稻品种分别种植10个小区，获得两个水稻品种的平均产量为 =510㎏/666.7㎡、 =500㎏/666.7㎡。 - =10㎏/666.7㎡。我们能否根据 - =10㎏/666.7㎡就判定这两个水稻品种平均产量不同？结论仍是，不一定。

因为两个水稻品种平均产量、都是从试验种植的10个小区获得，仅是两个品种有关总体平均数的估计值。由于存在试验误差，样本平均数并不等于总体平均数，样本平均数包含总体平均数与试验误差二部分，即

， (4-4)

于是，

（4-5）

其中，为试验的表面差异，为试验的真实差异，为试验误差。

（4-5）式表明，试验的表面差异( )是由两部分组成：一部分是试验的真实差异；另一部分是试验误差。虽然真实差异未知，但试验的表面差异是可以计算的，借助数理统计方法可以对试验误差作出估计。所以，可将试验的表面差异与试验误差相比较间接推断真实差异是否存在，即进行差异显著性检验。显著性检验的目的在于判明，试验的表面差异主要是由试验的真实差异造成的，还是由试验误差造成的，从而得到可靠的结论。

二、显著性检验的步骤

下面通过一个例子来介绍显著性检验的基本步骤。

【例4·1】已知某品种玉米单穗重～N（300，9.5²），即单穗重总体平均数 300g，标准差 9.5g。在种植过程中喷洒了某种药剂的植株中随机抽取9个果穗，测得平均单穗重 308g，试问这种药剂对该品种玉米的平均单穗重有无真实影响？

（一）提出假设 首先对样本所在的总体作一个假设。假设喷洒了药剂的玉米单穗重总体平均数与原来的玉米单穗重总体平均数之间没有真实差异，即或。也就是假设表面差异（）是由抽样误差造成的。

这种假设通常称为无效假设或零假设（null hypothesis），意味着，所要比较的两个总体平均数之间没有差异，记为H₀：。无效假设是待检验的假设，它有可能被接受，也有可能被否定。因此，相应地还要有一个对应假设，称为备择假设（alternative hypothesis）。备择假设是在无效假设被否定时，准备接受的假设，记为H_A：或。对于我们的例子，备择假设意味着喷洒了药剂的玉米单穗重总体平均数与原来的玉米单穗重总体平均数之间存在有真实差异。通过检验，若否定无效假设，我们就接受备择假设。

（二）计算概率 在假定无效假设成立的前提下，根据所检验的统计数的抽样分布，计算表面差异（）是由抽样误差造成的概率。

本例是在假定无效假设H₀：成立的前提下，研究在～N（300，9.5²）这一已知正态总体中抽样所获得的样本平均数的分布。第三章已述及，若～N（，），则样本平均数，，，将其标准化，得

(4-6)

本例， 308g 、 300g、 9.5g、，代入(4-6)式，得

下面估计|u|≥2.526的两尾概率，即估计P（|u |≥2.426）是多少？我们知道，两尾概率为0.05的临界值为 =1.96，两尾概率为0.01的临界值为 =2.58，即：

P（| |＞1.96）= P（＞1.96）+ P（＜-1.96）=0.05

P（| |＞2.58）= P（＞2.58）+ P（＜-2.58）=0.01

根据样本数据计算所得的值为2.526，介于两个临界值之间，即：

＜2.426＜

所以，| |≥2.526的概率P介于0.01和0.05之间，即：0.01＜ p ＜ 0.05，说明假定表面

差异（）是由抽样误差造成的概率在0.01—0.05之间。

（三）统计推断 根据小概率事件实际不可能性原理作出否定或接受无效假设的推断。若随机事件的概率很小，例如小于0.05，0.01，0.001，称之为小概率事件。在统计学上，把小概率事件在一次试验中看成是实际上不可能发生的事件，称为小概率事件实际不可能原理。根据这一原理，当表面差异是抽样误差的概率小于0.05时，可以认为在一次抽样中表面差异是抽样误差实际上是不可能的，因而否定原先所作的无效假设H₀：，接受备择假设H_A：，即认为存在真实差异。当表面差异是抽样误差的概率大于0.05时，说明无效假设H₀：成立的可能性大，不能被否定，因而也就不能接受备择假设H_A：。

显著性检验的结果表明：本例的样本平均数与原总体平均数之间的表面差异（）除包含抽样误差外，还包含真实差异（），即喷洒了药剂的玉米单穗重总体平均数与原来的玉米单穗重总体平均数不同。

综上所述，显著性检验，从提出无效假设与备择假设，到根据小概率事件实际不可能性原理来否定或接受无效假设，这一过程实际上是应用所谓“概率性质的反证法”对样本所属总体所作的无效假设的统计推断。

上述显著性检验利用了分布来估计出∣u∣≥2.562的两尾概率，所以称为检验。

三、显著水平与两种类型的错误

（一）显著水平 在显著性检验中，否定或接受无效假设的依据是“小概率事件实际不可能性原理”。用来否定或接受无效假设的概率标准叫显著水平（significance level），记作。在生物学研究中常取 =0.05 ，称为5%的显著水平；或 =0.01，称为1%的显著水平或极显著水平。

对于上述例子的检验来说，若∣u∣＜1.96，则说明试验的表面差异属于试验误差的概率p＞0.05，即表面差异属于试验误差的可能性大，不能否定。统计学上把这一检验结果表述为：“总体平均数与差异不显著（non-significant）”，在计算所得的值的右上方标记“ ”或不标记符号；若 ≤| |＜，则说明试验的表面差异属于试验误差的概率p在0.01—0.05之间，即0.01＜p≤0.05，表面差异属于试验误差的可能性较小，应否定H₀：，接受H_A：。统计学上把这一检验结果表述为：“总体平均数与差异显著（significant）”，在计算所得的值的右上方标记“*”；若| |≥2.58，则说明试验的表面差异属于试验误差的概率p不超过0.01，即p ≤0.01，表面差异属于试验误差的可能性更小，应否定H₀：，接受H_A：。统计学上把这一检验结果表述为：“总体平均数与差异极显著（very significant）”，在计算所得的值的右上方标记“* *”。

这里可以看到，是否否定无效假设H₀：，是用实际计算出的检验统计数的绝对值与显著水平对应的临界值比较：若| |≥ ，则在水平上否定： = ；若| |＜，则不能在水平上否定： = 。区间和称为水平上的否定域，而区间（- ，）则称为水平上的接受域。

显著性检验时选用的显著水平，除常用的 =0.05和0.01外，也可选 =0.10或 =0.001等。到底选哪种显著水平，应根据试验的要求或试验结论的重要性而定。如果试验中难以控制的因素较多，试验误差可能较大，则显著水平可选低些，即值取大些。反之，如试验耗费较大，对精确度的要求较高，不容许反复，或者试验结论的应用事关重大，则所选显著水平应高些，即值应该小些。显著水平对假设检验的结论是有直接影响的，通常在试验开始前即确定下来。

(二)两类错误因为在显著性检验中，否定或接受无效假设的依据是“小概率事件实际不可能性原理”，所以我们下的结论不可能有百分之百的把握。例如，经检验获得“差异显著”的结论，我们有95%的把握否定无效假设H₀，同时要冒5%下错结论的风险；经检验获得“差异极显著”的结论，我们有99%的把握否定无效假设H₀，同时要冒1%下错结论的风险；而经检验获得“差异不显著”的结论，在统计学上是指“没有理由”否定无效假设H₀，同样也要冒下错结论的风险。

显著性检验可能出现两种类型的错误：Ⅰ型错误（typeⅠerror）与Ⅱ型错误（typeⅡerror）。Ⅰ型错误又称为错误，就是把非真实的差异错判为是真实的差异，即实际上H₀正确，检验结果为否定H₀。犯Ⅰ类型错误的可能性一般不会超过所选用的显著水平；Ⅱ型错误又称为错误，就是把真实的差异错判为是非真实的差异，即实际上H_A正确，检验结果却未能否定H₀。犯Ⅱ类型错误的可能性记为，一般是随着的减小或试验误差的增大而增大，所以越小或试验误差越大，就越容易将试验的真实差异错判为试验误差。因此，如果经检验获得“差异显著”或“差异极显著”，我们有95%或99%的把握认为，这两个样本所在的总体平均数不相同，判断错误的可能性不超过5%或1%；若经检验获得“差异不显著”，我们只能认为在本次试验条件下，这两个样本所在的总体平均数没有差异的假设H₀：未被否定，这有两种可能存在：或者是这两个总体平均数确实没有差异，或者是这两个总体平均数有差异而因为试验误差大被掩盖了。

因而，不能仅凭统计推断就简单地作出绝对肯定或绝对否定的结论。“有很大的可靠性，但有一定的错误率” 这是统计推断的基本特点。显著性检验的两类错误归纳如下：

表4-1 显著性检验的两类错误

客观实际	检验结果
客观实际	否定	接受
成立	Ⅰ型错误（）	推断正确（1- ）
不成立	推断正确（1- ）	Ⅱ型错误（）

为了降低犯两类错误的概率，一般从选取适当的显著水平和增加试验重复次数来考虑。因为选取数值小的显著水平值可以降低犯Ⅰ类型错误的概率，但与此同时也增大了犯Ⅱ型错误的概率，所以显著水平值的选用要同时考虑到犯两类错误的概率的大小。

对于田间试验，由于试验条件不容易控制完全一致，试验误差较大，为了降低犯Ⅱ型错误的概率，也有选取显著水平为0.10或0.20的（注意，在选用这些显著水平值时，一定要予以注明）。通常采用适当增加试验处理的重复次数（即样本容量），以降低试验误差，提高试验的精确度，降低犯Ⅱ型错误的概率。

四、两尾检验与一尾检验

在【例4·1】中，对应于无效假设H₀：的备择假设为H_A：。H_A实际上包含了或这两种情况。此时，在水平上否定域为和，对称地分配在分布曲线的两侧尾部，每侧尾部的概率为 /2，如图4-1所示。这种利用两尾概率进行的检验叫两尾检验（two-tailed test），为水平两尾检验的临界值。两尾检验的目的在于判断与有无差异，而不考虑与谁大谁小。

两尾检验在实践中应用广泛，但是在有些情况下两尾检验不一定符合实际情况。例如，前已述及，目前我国大豆育种工作者认为，大豆籽粒蛋白质含量超过45%（）的品种为高蛋白品种。如果进行样品含量检测，我们关心的是所在的总体平均数大于（即该品种属于高蛋白品种）。此时的无效假设仍为H₀：，但备择假设则为H_A：。这时否定域位于分布曲线的右尾，即。例如当 =0.05时，否定域为。

又如，国家规定稻米中某种农药成分的残留物含量应低于0.1%（）。在抽检中，我们关心的是所在的总体平均数小于（即该品种属于合格产品）。此时的无效假设仍为H₀：，但备择假设则为H_A：。这时否定域位于分布曲线的左尾，即。例如当 =0.05时，分布的否定域为，见图4-2。

这种利用一尾概率进行的检验叫一尾检验（one-tailed test）。此时为一尾检验的临界值。显然，一尾检验的 =两尾检验的。例如，一尾检验的 =两尾检验的 =1.64，

一尾检验的 =两尾检验的 =2.33。注意，两尾检验的 =1.96；两尾检验的 =2.58。

图4-1 两尾检验

图4-2 一尾检验

实际应用中，如何选用两尾检验或一尾检验，应根据专业的要求在试验设计时就确定。一般情况下，若事先不知道与谁大谁小，只是为了检验与是否存在差异，则选用两尾检验；如果凭借一定的专业知识和经验推测应小于（或大于）时，则选用一尾检验。

五、显著性检验应注意的问题

上面我们已详细阐明了显著性检验的意义及原理。进行显著性检验还应注意以下几个问题：

1、要有合理的试验设计和准确的试验操作，避免系统误差、降低试验误差，提高试验的准确性和精确性。

2、选用的显著性检验方法要符合其应用条件。由于研究变量的类型、问题的性质、条件、试验设计方法、样本大小等的不同，所选用的显著性检验方法也不同，因而在选用检验方法时，应认真考虑其应用条件和适用范围。

3、选用合理的统计假设。进行显著性检验时，无效假设和备择假设的选用，决定了采用两尾检验或是一尾检验。

4、正确理解显著性检验结论的统计意义。显著性检验结论中的“差异显著”或“差异极显著”不应该误解为相差很大或非常大，也不能认为在实际应用上一定就有重要或很重要的价值。“显著”或“极显著”是指表面差异为试验误差可能性小于0.05或0.01，已达到了可以认为存在真实差异的显著水平。有些试验结果虽然表面差异大，但由于试验误差大，也许还不能得出“差异显著”的结论，而有些试验的结果虽然表面差异小，但由于试验误差小，反而可能推断为“差异显著”。

显著水平的高低只表示下结论的可靠程度的高低，即在0.01水平下否定无效假设的可靠程度为99％，而在0.05水平下否定无效假设的可靠程度为95%。

“差异不显著”是指表面差异为试验误差可能性大于统计上公认的概率水平0.05，不能理解为没有差异。下“差异不显著”的结论时，客观上存在两种可能：一是无本质差异，二是有本质差异，但被试验误差所掩盖，表现不出差异的显著性来。如果减小试验误差或增大样本容量，则可能表现出差异显著性。显著性检验只是用来确定无效假设能否被否定，而不能证明无效假设是正确的。

5、统计分析结论的应用，还要与经济效益等结合起来综合考虑。