95%置信区间

脑系科数据科学 2020-07-15

展开全文

1.点估计与区间估计

首先我们看看点估计的含义：

是用样本统计量来估计总体参数，因为样本统计量为数轴上某一点值，估计的结果也以一个点的数值表示，所以称为点估计。点估计虽然给出了未知参数的估计值，但是未给出估计值的可靠程度，即估计值偏离未知参数真实值的程度。

接下来看下区间估计：

给定置信水平，根据估计值确定真实值可能出现的区间范围，该区间通常以估计值为中心，该区间则为置信区间。

2.中心极限定理与大数定理

中心极限定理：

在适当的条件下，大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。例如我们要计算全中国人的平均身高。如果每次取10000个身高作为样本，对应有一个样本均值。如果再从总体中重复抽取n多次10000个样本，就对应有n个样本均值。随着n增大，把所有样本均值画出来，得到的就是一个接近正太分布的曲线。

大数定理：

取样数趋近无穷时，样品平均值按概率收敛于期望值。抛硬币的次数越多，越接近正反各一半。

3.置信区间与置信水平

一般我们用中括号[a,b]表示样本估计总体平均值误差范围的区间。a、b的具体数值取决于你对于”该区间包含总体均值”这一结果的可信程度，因此[a,b]被称为置信区间。

一般来说，选定某一个置信区间，我们的目的是为了让”ab之间包含总体平均值”的结果有一特定的概率，这个概率就是所谓的置信水平。

例如我们最常用的95%置信水平，就是说做100次抽样，有95次的置信区间包含了总体均值。

4.标准差(standard deviation)与标准误差(standard error)

标准差是描述观察值(个体值)之间的变异程度（例如一个人打十次靶子的成绩，这时有一个平均数8，有一个反映他成绩稳定与否的标准差）；

标准误是描述样本均数的抽样误差（例如十次抽样，每次他成绩平均数（7,8,6,9,5,6,7,7,8,9）的标准差，也就是抽样分布的标准差）；

样本的标准误差为:

SE=s(样本标准差)n−−√

SE=s(样本标准差)n