统计学之假设检验

东西二王 2020-09-21

展开全文

1.基本思想

我们还是从问题开始讨论。这回提个接地气的问题——雄安新区批复前后对该地区房价是否有差异？
嗯，假设检验其实就是为了解决这类问题。
假设检验的基本思想——我们有样本，但是无法获得总体，需要对总体的分布形式或分布参数事先作出某种假设，然后根据样本观测值，运用统计分析的方法来检验这一假设是否正确。
分解开来，假设检验=假设检验（或者假设检验）。
假设(hypothesis)——对总体的参数的具体数值（或分布形式）所作的陈述（总体参数包括总体均值、比例、方差等，分析之前必需陈述）。
假设检验(hypothesis test)—先对总体的参数（或分布形式）提出某种假设，然后利用样本信息判断假设是否成立的过程（有参数检验和非参数检验；逻辑上运用反证法，统计上依据小概率原理）。如图。

2.原假设和备择假设

从前面的介绍我们知道，假设检验的第一步是建立假设。那么假设分为两种（原假设和备择假设）。那么这二者具体又是什么呢？

原假设(null hypothesis)——原假设又称“ 0假设”，总是有符号 =， ≥ 或≤，表示为 H 0 H_0H0。是研究者想收集证据予以反对的假设（生产实践中常对应正常情形，如均值与设计一致）；一般来说，原假设是一旦拒绝便要采取行动的假设。因此，原假设总是“受到保护的假设” ，没有充分的证据是不能拒绝原假设的。例如，对一家信誉很好的工厂的产品进行检验，原假设一般是“ 产品合格”。
备择假设(alternative hypothesis)——研究者想收集证据予以支持的假设，一旦发生就要采取行动，是与原假设对立的假设，也称“研究假设”，总是有符号 ≠， > 或 <，表示为 H 1 H_1H1。

总结起来就是，原假设是统计学史上最悲催角色——它从一开始诞生，就是为了被科学家们发好人卡拒绝而存在的一个假设。备择假设才是科学家们追求的白富美。
搞明白了这两个假设，下一步我们做假设检验的时候，就要先提出假设了，这里给了一些提出假设的要点：

原假设和备择假设是一个完备事件组，而且相互对立（在一项假设检验中，原假设和备择假设必有一个成立，而且只有一个成立）。
先确定备择假设，再确定原假设。
等号“ =” 总是放在原假设上。
因研究目的不同，对同一问题可能提出不同的假设（也可能得出不同的结论）。

同时在实际应用中，我们有不同的需求，因此又有双侧检验和单侧检验的区分。

双侧检验——备择假设没有特定的方向性，并含有符号“=”的假设检验，称为双侧检验或双尾检验(two-tailed test)
单侧检验——备择假设具有特定的方向性，并含有符号“>”或“<”的假设检验，称为单侧检验或单尾检验(one-tailed test)。其中备择假设的方向为“<”，称为左侧检验，备择假设的方向为“>”，称为右侧检验。

原假设与备择假设形式：

所见即所得，用一张图来表示假设检验过程。

所以拒绝原假设的理由是假设检验中的小概率原理。那么什么是小概率？

在一次试验中，一个几乎不可能发生的事件发生的概率。
在一次试验中小概率事件一旦发生，我们就有理由拒绝原假设。
小概率由研究者事先确定。

所以拒绝H 0 H_0H0的理由就是

3.第一类错误和第二类错误

上文介绍了假设检验的过程，但是假设检验过程会不会出现错误呢？其实大家仔细分析拒绝原假设的理由就会发现问题了。通常情况下原假设是小概率事件，但是小概率事件≠0概率事件。小概率事件不是不发生，而是发生概率较小。就像天气预报说明天有99%的可能不下雨，结果1%的可能性成为了事实，明天下雨了。因此假设检验中会有两类错误（弃真错误和取伪错误）经常出现。
（1）第一类错误(弃真错误)：

原假设为真时拒绝原假设。
第一类错误的概率为α（没错，就是它，我们的好朋友，小α。咳咳咳，就是显著性水平，一般由研究者事先指定，常用的值有0.01, 0.05, 0.10）。

（2）第二类错误（取伪错误）：

原假设为假时未拒绝原假设。
第二类错误的概率记为β。

α和β的关系——α和β的关系就像翘翘板， α小β就大，α大β就小。所以两类错误不可能同时发生（第一类只在H 0 H_0H0为真时发生，第二类只在H 0 H_0H0为假时发生）。
影响β的因素：

总体参数的真值。
显著性水平α（当α减少时增大）。
总体标准差σ（当σ增大时增大）。
样本容量n（当n减少时增大）。

4.统计量与拒绝域

讲了这么多，但是还没有介绍假设检验的计算过程。假设检验的过程依赖于两个重要数学概念（统计量与拒绝域，前面已经有稍微提到了）。这里再做具体介绍。
检验统计量(test statistic)——根据样本观测结果计算得到的，并据以对原假设和备择假设作出决策的某个样本统计量，是对样本估计量的标准化结果（原假设H 0 H_0H0为真，点估计量的抽样分布）。
标准化的检验统计量公式为：
标准化的检验统计量 = 点估计量 − 假设值点估计量的抽样标准差标准化的检验统计量=\frac{点估计量-假设值}{点估计量的抽样标准差}标准化的检验统计量=点估计量的抽样标准差点估计量−假设值
显著性水平和拒绝域的三种情况：
双侧检验：

左侧检验：

右侧检验：

5.利用p值进行决策

如何利用假设检验解决实际问题？很重要的一个应用是在决策上。就如标题说的，利用p值进行决策。那么什么是p值?
p值(p-value)：在一个假设检验问题中，拒绝原假设的最小显著性水平。

p值法步骤（以大样本均值为例）
将样本统计量转换成检验统计量z

这里顺带提下作为统计推断的两大分支的区间估计和假设检验的关系。

过程相似：如果假设均值在95%的置信区间之外，双边检验将拒绝原假设（显著性水平为5%）。
逻辑不同：置信区间——不知道均值多少而要估计它；假设检验: 假定一个均值要看数据是否支持这个假设。

另外还是要谈一谈统计学与实际问题——这里谈的是统计显著性和实际显著性。

一个被拒绝的原假设意味着有统计显著性，但未必有实际显著性。这种情况常发生在大样本或精确测量场合，如Kepler的行星运行第一定律：行星轨道是椭圆的，当时吻合程度很好，100年后，仪器更高级、测量更精确，该假设被拒绝，因为行星间交互作用导致摄动。因此不要盲目使用统计显著性。此外，显著性水平α的选择也是个很关键的问题。一般来说：

α不宜过小，否则第二类错误概率会较大。
α的选择与判断发生错误时要付出的代价大小有关。
α的选择是决策问题。

单样本T检验就是要利用来自某总体的样本数据，推断该总体的均值和指定的检验值之间是否存在显著性差异。它是对总体均值的假设检验，检验的前提是总体服从正态分布。

7.两个总体参数的检验

讲完了一个总体参数，照例来讲就两个总体参数（两个总体均值之差，两个总体比例之差，两个总体方差比）。

独立大样本两总体均值之差检验

假定条件：

配对样本的T检验。同样的两组数据，根据它们之间关系的不同，可以分为独立样本或配对样本，独立样本和配对样本对应的T检验的自由度是不同的，这是它们作T检验最大的区别。

配对样本T检验的前提条件：

两个样本必须是配对的，也就是相关的；
两个样本所来自的总体都应该服从正态分布，这是T检验使用的基本条件；

在医学和教学领域，配对样本T检验应用是非常多的，例如以下几种情况：

同一受试者处理前和处理后数据的配对；同一受试者的两个局部的数据的配对；同一受试者用两种方法测量的数据的配对；配对的两个受试者分别接受两种不同的处理后的数据的配对。
考察某种教学方法对学生成绩的影响，使用新型教学方法前后，同一个班级学生成绩的变化等。

配对样本T检验步骤
首先对两组样本分别计算出每对观测值的差值（应用新教学方法后，同一个学生的前后两次考试成绩的差值），得到一个新的差值样本；
然后通过对差值样本的均值是否与0有显著性差异来检验两个总体的均值差是否与0有显著性差异；若差值样本的均值远离0，则认为两总体的均值有显著差异；反之，若差值样本均值在0附近波动，则认为两个总体的均值不存在显著差异。

俗话说的好：“没有买卖就没有伤害”，“假货”几乎是所有人深恶痛绝的东西，生活中无时不刻地进行各种商品的买卖，如何识别假货成为各位买家的一大头疼问题。所谓假货，就是于真货来源不同的物体。分别把真货和假货的各种商品情况来比较分析两种商品是否有明显差异，最终断定孰真孰假。这就是接下来要介绍的独立样本T检验。统计学原理
两个独立样本T检验的原假设为两个总体均值之间不存在显著性差异，需分两步完成：①利用F检验进行两总体方差的同质性判断；②根据方差同质性的判断，决定T统计量和自由度计算公式，进而对T检验的结果给予恰当的判定。
1、方差同质性检验；
在统计过程中，SPSS将自动计算F值，并将F值给出的统计量对应的显著性概率P值和显著性水平α进行比较，从而判断方差是否同质。
2、根据方差同质性判断，确定T统计量和自由度计算公式