师兄说:今天我们就简单的聊聊标准差和标准误,希望你对这个概念不再迷糊。 标准差是最常用的统计量,它主要用来说明一个变量的观察值之间有何不同。标准差说明了观察值与平均值相差多远(如下图,观察值用X表示,标准差就是这些观察值的离散程度/变异程度)。 从上图可以得知,如果观察值X离平均值越远,则标准差越大。标准差的最小值是0,这时数据集的各个观察值一样大。但是在实际中数据大部分都是分散的,所以标准差的值可大可小,而且没有最大值。统计分析中的一个主要准则是如果我们对事物进行第二次测量,则通常得到不同的结果。比如我们统计抄袭家的年龄,在抄袭家们平均年龄的数据中,一个抄袭家是19岁,另一个是28岁,等等。如果我们注意到这个变量的所有观察值,我们可以发现大部分观察值都彼此不同,标准差告诉我们,这些不同的程度有多大。例如一组抄袭家的年龄分别为:19、21、28、28、32 如果在抄袭家年龄的数据集中,30个抄袭家是一个样本。这个样本的均值是28岁。假设我们选择的是另外一组30个新娘的随机样本,并且观测他们的年龄。再次做同样的实验,我们一定会得到年龄的不同的均值。重复多次这个实验,我们一定会得到多个不同的均值,这个和上文在一次研究中个体的观测值通常是不同的一样,对不同的样本,样本均值通常也是不同的。重复研究产生的各均值的差异是多大呢?他们是否比个体观测的差异小或相同呢?例如:一起抽取了甲乙丙丁四个样本的抄袭家,每个样本有30个抄袭家。 甲样本抄袭家的年龄分别为:20、22、21、28、28、32.. 乙样本抄袭家的年龄分别为:15、22、21、20、21、32.. 解决上面的问题最简单的方法就是找到所有均值的标准差,各均值只是一行数字,就像30个原始观察值一样,所以对不同变量找不同样本的均值的标准差与找一个变量的原始观察值的标准差没有什么区别。或者说唯一的区别就是,找均值的标准差,我们需要先将每一个样本的均值计算出来。因此有时我们处理样本原始观察值的标准差,有时我们处理从原始观察中得到的一列数字的标准差,例如均值。为了区别这两种标准差,由原始观察值算出的叫做标准差( standard deviation),由一组均值算出的叫做标准误差(standard error)。《Statistics: The Conceptual Approach》Authors: Iversen, Gudmund R., Gergen, Mary均值的标准误比观察值的标准差小还是大?为什么? 
|