目录 第一章、样本与统计量 一、引言: 二、总体与样本: 三、统计量——随机变量的数字特征: 1、均值、方差 2、矩、协方差、相关性与协方差矩阵 3、距离与相似系数 4、抽样分布定理 四、常用分布: 第一章、样本与统计量 本讲首先介绍了样本与统计量的基本概念,包括:总体、个体、样本、总体分布与样本分布;然后介绍了统计量的概念和几个常见的统计量:样本均值、方差、标准差、 k 阶原点矩和k 阶中心矩;最后介绍了抽样分布的概念与抽样分布定理。 一、引言: 由于大量随机现象必然呈现出其规律性,因而从理论上讲,只要对随机现象进行足够多次的观察,随机现象的规律性就一定能够清楚地呈现出来。但是,客观上只允许我们对随机现象进行次数不多的观察或试验,也就是说:我们获得的只能是局部的或有限的观察资料(即样本)。 数理统计的任务就是研究怎样有效地收集、整理和分析所获得的有限资料,并对所研究的问题尽可能地给出精确而可靠的推断。现实世界中存在着形形色色的数据,分析这些数据需要多种多样的方法。 因此,数理统计中的方法和支持这些方法的相应理论是相当丰富的。概括起来可以归纳成两大类。 参数估计: 根据数据,对分布中的未知参数 进行估计; 假设检验: 根据数据,对分布的未知参数的某种假设进行检验。 参数估计与假设检验构成了统计推断的两种基本形式,这两种推断渗透到了数理统计的每个分支。 【简单的讲】我们希望通过(有限的)样本及其统计量等信息去分析样本(的分布等),进而(通过参数估计和假设检验)去推断和检证整体的规律。 二、总体与样本: 1、总体、个体与样本: 在数理统计中,称研究问题所涉及对象的全体为总体,总体中的每个成员为个体。 例如: 研究某工厂生产的某种产品的废品率,则这种产品的全体就是总体,而每件产品都是一个个体。 实际上,我们真正关心的并不一定是总体或个体本身,而真正关心的是总体或个体的某项数量指标。 如:某电子产品的使用寿命,某天的最高气温,加工出来的某零件的长度等数量指标。因此,有时也将总体理解为那些研究对象的某项数量指标的全体。 为评价某种产品质量的好坏,通常的做法是:从全部产品中随机(任意)地抽取一些样品进行观测(检测),统计学上称这些样品为一个样本。 同样,我们也将样本的数量指标称为样本。因此,今后当我们说到总体及样本时,既指研究对象又指它们的某项数量指标。 【例1】研究某地区 N 个农户的年收人。 在这里,总体既指这 N 个农户,又指我们所关心的 N个农户的数量指标──他们的年收入( N 个数字)。 如果从这 N 个农户中随机地抽出 n 个农户作为调查对象,那么,这 n 个农户以及他们的数量指标──年收入( n个数字)就是样本。 【注意】上例中的总体是直观的,看得见、摸得着的。但是,客观情况并非总是这样。如【例2】 【例2】用一把尺子测量一件物体的长度。 假定 n 次测量值分别为X1,X2 ,…,Xn。显然,在该问题中,我们把测量值X1,X2 ,…,Xn看成样本。但总体是什么呢? 事实上,这里没有一个现实存在的个体的集合可以作为上述问题的总体。可是,我们可以这样考虑,既然 n 个测量值 X1,X2 ,…,Xn 是样本,那么,总体就应该理解为一切所有可能的测量值的全体。 又如:为研究某种安眠药的药效,让 n 个病人同时服用这种药,记录服药者各自服药后的睡眠时间比未服药时增加睡眠的小时数 X1,X2,…,Xn, 则这些数字就是样本。 那么,什么是总体呢? 设想让某个地区(或某国家,甚至全世界)所有患失眠症的病人都服用此药,则他们所增加睡眠的小时数之全体就是研究问题的总体。 2、总体分布 对一个总体,如果用X表示其数量指标,那么,X的值对不同的个体就取不同的值。因此,如果我们随机地抽取个体,则X的值也就随着抽取个体的不同而不同。 所以,X是一个随机变量! 既然总体是随机变量X,自然就有其概率分布。我们把X的分布称为总体分布。 总体的特性是由总体分布来刻画的。因此,常把总体和总体分布视为同义语。 【例 3 (例 l 续)】在例 l中,若农户年收入以万元计,假定 N户的收入X只取以下各值: 0.5, 0.8, l.0, 1.2和1.5。取上述值的户数分别n1, n2, n3, n4和n5 (n1+n2+n3+n4+n5=N)。则X为离散型分布,分布律为:
【例4 ( 例2续 )】在例2中,假定物体真实长度为μ(未知)。一般说来,测量值X就是总体,取μ 附近值的概率要大一些,而离μ 越远的值被取到的概率就越小。 如果测量过程没有系统性误差,则X取大于μ 和小于μ 的概率也会相等。 在这种情况下,人们往往认为X 服从均值为μ,方差为σ2 的正态分布。σ2反映了测量的精度。于是,总体X的分布为 N(μ ,σ2)。 【说明】这里有一个问题,即物体长度的测量值总是在其真值 μ的附近,它不可能取负值。 而正态分布取值在(-∞,∞)上。那么,怎么可以认为测量值X服从正态分布呢? 回答这个问题,有如下两方面的理由。 (1)对于X∼N(μ,σ2), P{μ-3σ<X<μ+3σ}=0.9974. 即 X 落在区间(μ-3σ,μ+3σ)之外的概率不超过 0.003, 这个概率非常小。X 落在(μ-4σ,μ+4σ)之外的概率就更小了。 例如:假定物体长度μ =10厘米,测量误差为0.01厘米,则σ2=0.012。 这时((μ-3σ,μ+3σ)=(9.97,10.03)。于是,测量值落在这个区间之外的概率最多只有0.003,可忽略不计。 可见,用正态分布 N(10,0.012)去描述测量值X是适当的。完全可认为:X 根本就不可能取到负值; (2)另外,正态分布取值范围是(-∞,∞),这样还可以解决规定测量值取值范围上的困难。 如若不然, 就需要用一个定义在有限区间(a,b)取值的随机变量来描述测量值X。那么, a和b到底取什么值呢?测量者事先很难确定。 再退一步,即使能够确定出a和b,却仍很难找出一个定义在 (a,b) 上的非均匀分布用来恰当地描述测量值。与其这样,还不如干脆就把取值区间放大到(-∞,∞),并用正态分布来描述测量值。这样,既简化了问题,又不致引起较大的误差。 【离散分布和连续分布的说明】 ● 如果总体所包含的个体数量是有限的, 则 称该总体为有限总体。有限总体的分布显然是离散型的,如【例3】。 ● 如果总体所包含的个体数量是无限的,则 称该总体为无限总体。限总体的分布可以 是连续型的,如【例4】;也可是离散型的。 但是,在数理统计中,研究有限总体比较困难。因为其分布是离散型的,且分布律与总体中所含个体数量有关系。通常在总体所含个体数量比较大时,将其近似地视为无限总体,并用连续型分布逼近总体的分布,这样便于进一步地做统计分析。如【例5】 【例5】研究某大城市年龄在1岁到10岁之间儿童的身高。 显然,不管城市规模多大,这个年龄段的儿童数量总是有限的。因此,该总体X只能是有限总体。总体分布只能是离散型分布。然而,为便于处理问题,我们将有限总体近似地看成一个无限总体,并用正态分布来逼近这个总体的分布。 当城市比较大,儿童数量比较多时,这种逼近所带来的误差,从应用观点来看,可以忽略不计。 【样本的二重性】样本X1,X2,…,Xn既被看成数值,又被看成随机变量 ● 假设 X1, X2, …, Xn 是总体X中的样本,在一 次具体的观测或试验中,它们是一批测量值, 是已经取到的一组数。这就是说,样本具有数的属性。 ● 由于在具体试验或观测中,受各种随机因素 的影响,在不同试验或观测中,样本取值可 能不同。因此,当脱离特定的具体试验或观 测时,我们并不知道样本 X1,X2,…,Xn 的具 体取值到底是多少。因此,可将样本看成随机变量。故样本又具有随机变量的属性。 【例 6 (例2续)】在前面测量物体长度的例子中,如果我们在完全相同的条件下,独立地测量了n 次,把这 n 次测量结果,即样本记为 X1,X2,…,Xn . 那么,我们就认为:这些样本相互独立,且有相同的分布;其分布与总体分布 N(μ ,σ2)相同。 【将上述结论推广到一般的分布】如果在相同条件下对总体 X 进行 n 次重复、独立观测,就可以认为所获得的样本X1,X2,…,Xn是 n 个独立且与总体 X 有同样分布的随机变量。在统计文献中,通常称相互独立且有相同分布的样本为随机样本或简单样本, n 为样本大小或样本容量。 3、样本分布 既然样本 X1,X2,…,Xn 被看作随机向量,自然需要研究其联合分布。 假设总体 X 具有概率密度函数 f (x),因样本 X1,X2,…,Xn独立同分布于 X,于是,样本的联合概率密度函数(也叫似然函数(likehood))为: 【例7】 假设某大城市居民的收入 X 服从正态分布N(μ ,σ2), 概率密度为
现从总体 X 中随机抽取样本 X1,X2,…,Xn ,因其独立同分布于总体 X,即: Xi ∼ N(μ ,σ2), i=1,2,…,n. 于是,样本X1,X2,…,Xn的联合概率密度为 三、统计量——随机变量的数字特征: 由样本推断总体的某些情况时,需要对样本进行“加工”,构造出若干个样本的已知 (确定)的函数,其作用是把样本中所含的某一方面的信息集中起来。这种不含任何未知参数的样本的函数称为统计量。它是完全由样本所决定的量。 1、均值、方差: (1)数学期望: (2)方差: 【总体】 式(1.65)证明如下:方差等于平方均值减去均值的平方 Var(x)= E[ (x-Ex)²] = E[x²-2xEx+(Ex)²] = E(x²)-2ExEx+E(Ex)² =E(x²)-2(Ex)²+(Ex)² = E(x²)-[E(x)]² 【样本】注意方差不是除n,而是(n-1)
(3)几种常用随机变量分布的期望和方差: 2、矩、协方差、相关性与协方差矩阵 (1)矩与中心化、标准化数据: 【总体】
【样本】
(2)协方差与相关系数:
(3)协方差矩阵与相关矩阵:
【协方差矩阵和相关系数矩阵的关系】由二者的定义公式可知,经标准化的样本数据的协方差矩阵就是原始样本数据的相关矩阵。 这里所说的标准化指正态化,即将原始数据处理成均值为0,方差为1的标准数据。 3、距离与相似系数
【证明第(3)和(4)条之间的关系】
4、抽样分布 统计量既然依赖于样本,而后者又是随机变量,故统计量也是随机变量,有一定的分布,这个分布称为统计量的抽样分布。 【抽样分布定理】设 X1,X2,...,Xn是来自均值为μ ,方差为 σ2 的总体的样本,则当 n 充分大时, 近似地有: 证明如下: 【正态分布标准化定理】若X~N(μ,σ2),则 Z = (X-μ)/σ ~ N(0,1) 【中心极限定理】设 X1,X2,...,Xn是来自均值为μ ,方差为 σ2 的总体的样本,则当 n 充分大时, 近似地有: 【应用1】可轻易的计算随机样本均值的概率分布值 【应用2】 【例1】用机器向瓶子里灌装液体洗涤剂,规定每瓶装 μ 毫升。但实际灌装量总有一定波动。假定灌装量的方差 σ2=1,如果每箱装这样的洗涤剂 25 瓶。求这 25 瓶洗净剂的平均灌装量与标定值 μ 相差不超过0.3毫升的概率;又如果每箱装50瓶时呢? 解:记一箱中 25 瓶洗净剂灌装量为 X1,X2,..., X25 是来自均值为μ , 方差为1的总体的随机样本。根据抽样分布定理1,近似地有 四、常用分布: 1、χ2 分布:它是由正态分布派生出来的一种分布。 【定义】 设 X1, X2, …, Xn 相互独立,且均服从正态分布 N(0, 1), 则称随机变量 服从自由度为 n 的卡方分布,记成χn2 。 其实卡方分布是一种伽玛分布(α=n/2,Β=1/2时),详见【附伽玛分布和函数内容】
【附伽玛分布和函数内容】具体详见文章【LDA-math-神奇的Gamma函数】 其实伽玛函数可以看成阶乘在实数上的扩展。 【性质】如下 对于性质(1),可由正态分布的标准化公式推出,即Zi = (Xi-μ)/σ ~ N(0,1),则Σ(Zi2)符合卡方分布。 对于性质(3),由于卡方分布是伽玛分布的特殊情况,则可直接由伽玛分布的均值和方差算出。
【分布密度函数】
【分布分位点】具体数值可以查表 2、t 分布: 【定义】 设 X ~N(0, 1) , Y ~χn2 , 且 X与Y 相互独立,则称随机变量 为服从自由度 n 的 t 分布,记为 T ~ tn。 可以看出t分布的概率密度函数是偶函数,即 f(t) = f(-t) t1-α(n) = -tα(n) 3、F分布: 【性质1】若 X ~ Fm,n,则 Y = X -1 ~ Fn,m 【性质2】 在通常 F 分布表中,只对α 比较小的值,如α = 0.01, 0.05, 0.025及0.1等列出了分位点。但有时我们也需要知道α 比较大的分位点,它们在 F 分布表中查不到。这时我们就可利用分位点的关系式(1)把它们计算出来。 【例】对m=12, n=9, α=0.95, 我们在 F 分布表中查不到 F12,9(0.95),但由(1)式,知 【性质3】若X ~ tn , 则X2 ~ F1,n。 4、正态总体样本均值与样本方差的分布 性质(4)是由性质(1)和(2)共同推出的。定理(1)(2)(4)基本上就是后面参数估计和假设检验的核心。 【例】在设计导弹发射装置时,重要内容之一是研究弹着点偏离目标中心的距离的方差。 对于某类导弹发射装置,弹着点偏离目标中心的距离服从 N(μ,σ2),这里σ2 = 100米2。 现在进行了25次发射试验,用 S2 记这25次试验中弹着点偏离目标中心的距离的样本方差。 求: S2 超过50米2的概率。 |
|