现实中常常有这样的问题,比如,想知道全体女性的身高均值 ,但是没有办法把每个女性都进行测量,只有抽样一些女性来估计全体女性的身高: 那么根据抽样数据怎么进行推断?什么样的推断方法可以称为“好”? 1 无偏性 比如说我们采样到的女性身高分别为: 那么: 是对 不错的一个估计,为什么?因为它是无偏估计。 首先,真正的全体女性的身高均值 ,我们是不知道,只有上帝才知道,在图中就画为虚线: 我们通过采样计算出 : 会发现,不同采样得到的 是围绕 左右波动的: 这有点像打靶,只要命中在靶心周围,还算不错的成绩: 如果用以下式子去估计方差 : 根据“为什么样本方差的分母是 n-1?”的解释,就会产生偏差: 这个偏差经过计算,就是: 这种偏差就好像瞄准镜歪了,是系统性的: 就此而言,无偏估计要好于有偏估计。 2 有效性 打靶的时候,右边的成绩肯定更优秀: 进行估计的时候也是,估计量越靠近目标,效果越“好”。这个“靠近”可以用方差来衡量。 比如,仍然对 进行估计,方差越小,估计量的分布越接近 : 有效估计和无偏估计是不相关的: 举个例子,从 中抽出10个样本: 下面两个都是无偏估计量: 但是后者比前者方差小,后者更有效。 并且在现实中不一定非要选无偏估计量,比如: 如果能接受点误差,我倒觉得选择右边这个估计量更好。 3 一致性 之前说了,如果用以下式子去估计方差 : 会有一个偏差: 可以看到,随着采样个数 的增加,这个偏差会越来越小。那么这个估计就是“一致”的。 如果样本数够多,其实这种有偏但是一致的估计量也是可以选的。 4 总结 判断一个估计量“好坏”,至少可以从以下三个方面来考虑:
实际操作中,要找到满足三个方面的量有时候并不容易,可以根据情况进行取舍。 |
|