分享

【数理统计基础】 02

 新用户49272060 2022-08-18 发布于广东

1. 样本和统计量

1.1 样本和统计量

  数理统计讨论的问题不一定都是随机现象,比如人口信息的统计、具体数据的测量,它们的结果都是确定的。但实际问题的操作并不是数学所关心的,剥离问题的外壳,这些问题都可以用随机现象来描述,比如人口信息和测量误差都可以用一个正态分布来近似。建立统计的概率模型,正是数理统计区别于广义统计学的关键,为模型定义统一、明确的对象也是任何数学分支的起点。

  既然这样,数理统计的研究对象其实还是随机变量,具体问题中所有可能的取值被称为全体,而每一个值称为个体。不同于概率论中研究分布的性质,统计中的分布信息往往是未知的,这样的随机变量习惯写作X。为了得到X的更多信息,需要采集它的观察值X1,X2,⋯,Xn,它们称为样本。一般假定Xi是与X同分布的独立随机变量,具体样本值则记作xi。

  统计问题中的主要信息就是样本值Xi,能对它进行的处理只有函数计算f(X1,⋯,Xn),这些函数值被称为样本统计量。统计量不能任意选取,它需要根据实际需要并一般有直观意义。比如最常用的统计量是式(1)中的样本均值ˉX和样本方差S2,它们一般作为分布的均值和方差的估计值。

ˉX=1nn∑i=1Xi;S2=1n−1n∑i=1(Xi−ˉX)2

  既然样本是随机变量,统计量自然也是随机变量。如果X的期望和方差是(μ,σ2),则易知ˉX是有期望μ和方差σ2n的随机变量。不难算得,S2的期望值正好是σ2,所有系数取1n−1是合理的,S2的完整称谓是“修正的样本方差”。我们暂时可以这样“直觉”地解释这个现象:均值ˉX是由Xi生成的,它会随着Xi的变动而变动,这就导致真正自由、有效的变量减少了一个。下面马上会回来重新讨论这个问题。

  更一般的,比较重要的统计量还有样本原点矩样本中心距(式(2)),要注意k>1时,样本中心距都需要修正,只不过在n很大时可以近似地使用。其中一阶原点矩便是样本均值,二阶中心距便是未修正的样本方差,其它的统计量使用频率不高。

ak=1nn∑i=1Xki;mk=1nn∑i=1(Xi−ˉX)k

  研究统计量是为了获取分布的信息,我们有一个很朴素的想法:当样本数足够多后,应当能绘制出分布函数F(x)的图形。根据分布函数的定义特点,可以定义这样一个统计量vn(x):它表示满足Xi⩽x的样本数,并记Fn(x)=vn(x)n,它称为经验分布函数。对于指定的x,Fn(x)是随机变量,当把x也看作变量时,我们只好叫Fn(x)“随机函数”。不过不用担心概念会变复杂,因为|Fn(x)−F(x)|的最大值才是我们要关心的,而它是一个随机变量。数理统计中有著名的格里文科定理(式(3)),它说明Fn(x)以概率1收敛于F(x)。

P{limn→∞supx∈R|Fn(x)−F(x)|=0}=1

1.2 统计量的自由度

  在概率论中我们熟知一个结论:如果X1,⋯,Xn互相不相关,则Y=X1+⋯+Xn的期望、方差可以简单地展开。n个Xi对Y的影响互不相关,这样的统计量十分易于讨论,我们暂且称它的自由度是n。下面就来研究一下样本方差的自由度为什么是n−1而不是n,不过在此之前,需要先讨论一下随机变量正交变换的性质。

  对互不相关的随机变量Xi,设对它们做正交线性变换后得到Yi,则首先容易得到式(4)。然后分别展开E(YiYj)和E(Yi)E(Yj),根据正交性,以及Xi独立同分布,容易有式(5)成立,所以Yi互不相关。这个结论对任何随机变量都成立,且也符合正交变换的一贯性质。

(X1,⋯,Xn)=(Y1,⋯,Yn)A;AAT=I⇒n∑i=1X2i=n∑i=1Y2i

E(YiYj)−E(Yi)E(Yj)=n∑k=1akiakj(E(X2k)−E2(Xk))=0

  特别地,式(6)左的Y1可以扩展为一个正交变换,利用式(4)便可得到式(6)右的结论。这不仅说明了S2的自由度为n−1,还可以知道ˉX和S2是不相关的,这个结论非常重要。

Y1=√nˉX⇒n∑i=1(Xi−ˉX)2=n∑i=1X2i−Y21=n∑i=2Y2i

  对于满足再生性的随机变量,Yi和Xi具有相同的分布类型,且可知满足式(6)的Y1有期望√nμ和方差σ2,而其它Yi有期望0和方差σ2。特别地,当Xi是正态分布时,可以有式(7)成立,且ˉX与S2相互独立。对ˉX的结论,一般写作式(8),右边是一个确定的分布(后面会用到)。

Xi∼N(μ,σ2)⇒Y1∼N(√nμ,σ2);Yi∼N(0,σ2)

√n(ˉX−μ)σ∼N(0,1)

  更一般地,对于自由度为n的随机变量Q=X21+⋯+X2n,其中Xi互不相关。现在把Q看成Xi的正定二次型,并记行向量→X=[X1,⋯,Xn]。假设Q可以分解为r个半正定二次型之和(式(9)左),且Qk的秩nk满足n1+⋯+nr=n。由Ak的秩为nk且半正定可知,存在n×nk的矩阵Bk,使得Qk=→XBkBTk→XT。

Q=Q1+⋯+Qr=→XBBT→XT=→Y→YT

  令方阵B=[B1,⋯,Br]和→Y=→XB,则有Q=→Y→YT(式(9)右),从而BBT=In,B是一个正交矩阵。因为Yj是由Xi正交变换而来,故根据式(5)知Yj互不相关,继而Qk之间是互不相关的。值得提醒的是,当Q也是一般的半正定二次型时,结论仍然成立,这个条件使用起来会更方便,请自行论证。

  现在利用这个结论再讨论S2的自由度,首先显然有式(10)成立,其中的每一项都是关于Xi的半正定二次型。当半正定二次型具有形式n∑i=1Z2i,且Zi还有r个线性约束条件时,它本质上是关于n−r个自由变量的正定二次型,从而秩为n−r。这个小结论在判定二次型秩时很有用,比如S2中设Zi=Xi−ˉX,则有1个限制条件Z1+⋯+Zn=0,从而S2的秩为n−1。另外显然式(10)左的秩为n,ˉX的秩为1,满足以上定理的条件,故有S2,ˉX不相关。

n∑i=1X2i=nˉX2+(n−1)S2

2. 统计学三大分布

  统计量也是随机变量,各种形式的统计量会产生许多新的随机变量,这些变量中的有些是经常出现的,有必要事先对它们做一些介绍。因为正态分布适用的场合最为广泛,这里的统计学三大分布都是基于正态分布的。

2.1 χ2(卡方)分布

  在介绍χ2分布之前,先讨论一个更一般的分布。将埃尔朗分布中的r扩展为任意正实数,得到的分布(11)称为Γ分布,一般记作Γ(r,λ)。式子中的Γ(r)确保了p(x)为密度函数,它被称为Γ函数。Γ函数在实数域是个U形函数,它有式(12)的基本结论,由于Γ(n)=(n−1)!,它也被看成是阶乘概念的扩展。

p(x)=λrΓ(r)xr−1e−λx,Γ(x)=∫+∞−∞tx−1e−tdt

Γ(x+1)=xΓ(x);Γ(1)=1,Γ(12)=√π

  Γ分布具有和埃尔朗分布同样的特征函数,并且也满足再生性。这里不打算讨论Γ分布的更多性质,而是关注它的一类特例。假设X∼N(0,1),可以证明X2∼Γ(12,12),这是个奇妙的巧合!如果X1,⋯,Xn是独立的标准状态分布,利用再生性有式(13)成立,它被称为自由度为n的χ2(卡方)分布,记作χ2n。

Xi∼N(0,1)⇒n∑i=1X2i∼Γ(n2,12)=χ2n

  上图是χ2分布的密度函数,n=1时便是X2,它有两条渐近线,n=2时是指数分布,n>2时分布曲线类似但越来越扁平。容易算得χ21有期望1和方差2,这就得到χ2n分布的期望和方差(式(14))。继续上面对S2的讨论,由于Yi∼N(0,σ2),可以得到S2满足式(15)。另外如果X是指数函数,显然有2λX∼χ22。

Y∼χ2n⇒E(Y)=n;D(Y)=2n

(n−1)S2σ2∼χ2n−1

  χ2分布的引入无非是为了讨论样本方差的性质,这个分布中不含有任何未知的参数,这种确定的分布非常便于概率的量化计算。但在量化分析的表达式中,不应该含有未知的参数(样本值Xi、样本容量n等属于已知量),这样的表达式一般称为枢轴变量。简单说,枢轴变量由已知量组成,且形成一个确定的分布,这个以后会深入讨论。

  一般教材上自由度的概念定义在随机变量Q=X21+⋯+X2n上,其中Xi是独立的标准正交分布。如果Q可以分解为k个半正定二次型,且秩的和为n,则根据前面关于自由度的结论,变换矩阵B为正交矩阵,从而Yi也是互相独立的正交分布。进而Qk是自由度为nk的卡方分布,且它们互相独立。这个结论称为柯赫伦(Cochran)分解定理,在数理统计中有着非常普遍的应用。

2.2 t分布

  公式(8)中参数σ往往是未知的,这会给分析带来困难,这时可以用S可以做为σ的近似。令X,Y分别代表式(8)(15)中的变量,消除σ后就形成变量X√Y/(n−1)。这应当是我们要关心的数轴变量,它的分布是确定,为了便于讨论研究,需要为它作个定义。一般地,式(16)中的分布被称为自由度为n的t分布,记作tn。下图是其密度函数,有人已经证明,当n→∞时,t分布收敛于正态分布,这也是符合直觉的。

X∼N(0,1);Y∼χ2n⇒X√Y/n∼tn

  再回到对式(8)(15)的讨论,显然有式(17)成立,这个结论以后经常用到。关于(17)式我想强调一下,式中好像是用S取代了σ,这只是巧合而已,不要忘了其背后原理还是(8)(15)的结合。是因为σ恰巧被消掉才出现了式(17),遇到更复杂的情况时,要重新仔细计算(下一篇将遇到)。

√n(ˉX−μ)S∼tn−1

2.3 F分布

  还有一种常见的场景,就是比较两个分布的方差比σ21/σ22。同样利用S2i近似σ2i,并利用公式(15)可以进行类似的讨论。为此,将式(18)中的分布被称为自由度为m,n的F分布,记作Fm,n,下图是它的密度函数。

X∼χ2m;Y∼χ2n⇒X/mY/n∼Fm,n

  回到方差的比较,设X,Y的方差分别为σ21,σ22,样本容量分别为m,n,样本方差分别为S21,S22,容易知道有式(19)成立。

S21S22⋅σ22σ21∼Fm−1,n−1

  数理统计中使用分布函数时,和概率论中是相反的,即根据概率值来确定随机变量的值。满足P(X>C)=α的C被称为分布的α上分位点,对于正态分布和上面的三大分布,α上分位点分别记作u(α),χ2n(α),tn(α),Fm,n(α)。其中tn,Fm,n有式(20)的简单性质,它们在计算和制表中比较有用,证明比较简单,请自行验证。

tn(1−α)+tn(α)=0;Fm,n(α)⋅Fn,m(1−α)=1

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多