【原】用R语言做数据分析——假设检验基本概论

新用户26922hFh 2022-01-13

展开全文

　　之前在统计学的学习中，已经初步认识了假设检验，接下来结合R语言进一步深入了解假设检验。

　　假设检验是指利用搜索到的数据对某个事先作出的统计假设按照设计好的方法进行检验，判断此假设是否正确。在统计推断的过程中，需要对参数提出一定的假设，然后对提出的假设进行假设检验。用一个例子说明假设检验的基本概念。

　　例子：设某工厂生产的一批产品，其次品率p是未知的，按照规定，若p<=0.01，则这批产品为可接受的，否则为不可接受的。这里的“p<=0.01”便是一个需要的假设，记为H。假定从这批量很大的产品中随机抽取100件样品，发现其中有3件次品，这一抽样结果便成为判断假设H是否成立的依据。很显然，样品中次品个数越多对假设H越不利，反之则对H有利。记样品中次品个数为X，问题是：X大到什么程度时就应该拒绝H？

　　我们来分析一下：由于否定了H就等于否定了一大批产品，因此必须要用数据事实慎重对待。统计学常用的作法是：先假定H成立，来计算X>=3的概率有多大？由于X分布为B(n,p)，其中n=100,容易计算出Pp=0.01{X>=3}≈0.08。显然，对p<0.01,这概率值还要小。也就是说：当假设H(p<=0.01)成立时，100个样品中有3个或3个以上次品的概率不超过0.08。这可以看作一个“小概率”事件。而在一次实验中就发生了一个小概率事件的不大可能的。因此，事先作出的假设“p<=0.01”是非常可疑的，在需要作出最终判决时，就应该否定这个假设，而认定这批产品不可接受（即认为p>=0.01）。

　　上述例子包含了假设检验的一些重要的基本概念。一般，设θ为用以确定总体分布的一个未知参数，其一切可能只的集合记为⊙，则关于θ的任一假设可用“θ ∈⊙' ”来表示，其中⊙'为⊙的一个真子集。在统计假设检验中，首先要有一个作为检验的对象的假设，常称为不原假设或零假设。与之相对应，为使问题表述更加明确，还常提出一个与相反的假设，称为备择假设。原假设和备择假设常表示为：

　　用R语言做数据分析——假设检验基本概论

　　其中⊙0和⊙1为⊙的两个不相交的真子集，H0表示原假设，H1表示备择假设。

　　关于θ的假设常有以下三种形式（其中θ 0为给定值）：

　　用R语言做数据分析——假设检验基本概论

　　假设检验的依据是样本，样本的某些取值可能对原假设H0有利，而另一些取值可能对H0不利。因此可以根据某种公认的合理准则将样本空间分成两部分，一部分为拒绝域，当样本落入拒绝域时，便拒绝H0；另一部分可称为接受域，当样本落入它时不拒绝H0。

　　构造拒绝域的常用方法是寻找一个统计量g（如样品中次品的件数X），g的大小可以反映出对原假设H0有利或者不利，因此，确定拒绝域W的问题转化为确定统计量g的一个取之于C的问题。

　　例子：对假设检验问题，设X1,X2,...,Xn为样本，W为样本空间中的一个子集，对于给定的α∈(0,1)，若W满足：

　　用R语言做数据分析——假设检验基本概论

　　则称由W构成拒绝域的检验方法为显著性水平α的检验。

　　显著性水平α常用的取值为0.1、0.05和0.01等。对一个显著性水平α的检验，假定原假设H0成立，而样本落入拒绝域W中，就意味着一个小概率发生了，而一次实验中发生一个小概率事件是可疑的，结果就导致了对原假设H0的否定。

　　在第一个例子中，如果事先给定α=0.1，而Pp=0.01{X>=3}=0.08，因此当p<0.01时，这个概率还要小，根据定义W={X>=3}便给出了假设检验H0：p<=p0=0.01的显著性水平α=0.01的拒绝域，由X=3便可拒绝H0。但如果事先给定的显著性水平α=0.05，这时，相应的显著性水平α的检验的拒绝域W={X>=4}，这时X=3就不能拒绝H0。由此可见，显著性水平α越小，则拒绝原假设越困难。换一句话说：显著性水平α越小，则当样本落入拒绝域因而拒绝H0就越加可信。

　　通常，作假设者对原假设H0往往事先有一定的信任度，或者一旦否定了H0就意味着作出一个重大的决策，需谨慎从事，因此把检验的显著性水平α取得比较小其中体现了一种“保护原假设”的思想。