张朝阳的样本量与抽样误差（小结篇）

飞在路上 2006-12-30

展开全文

庄主 @ 2006-05-07 20:48

庄主问（2006-04-09）：张朝阳根据他们自己的研究（但没有公布任何方法细节），中国网民应达1.5-2.0亿。从方法角度算算，在95％置信水平上，张的区间估计（1.5-2.0亿）所对应的抽样误差是多少？其样本量又有多大？【注：已告知你需要的所有数据（中国人口、张的网民数、抽样误差公式）。】(原文：中国网民上网时间超过美国网民15倍?)

SL答（2006-05-02）：张朝阳的区间估计所对应的抽样误差(95%置信度)为0.25,样本量为1257. 嘿嘿,劳动节找点活干干.不知算对没有.(中国人口算的13亿)

庄主评（2006-05-03）：可惜不对，但是nice try，给个B。如果 n = 1257，区间估计值应该在1.4－2.1亿之间。大家自己填入中间步骤，以理解这个结论是如何得出的。不要小看这种只用到小学算术的题目，对于帮助理解抽样方法很有价值。

小彭答（2006-05-03）：我得到的结果（样本数）是2597（人口为13亿）。

SL答（2006-05-04）：95%置信度下的估计区间为:
估计值(X=网民占总人口的比例)+-2Se[抽样误差(sampling error=standard error)]
X+1.96Se=2.0/13
X-1.96Se=1.5/13
X=0.134615
Se=0.0098116
(因为是否是网民是一个二分定类变量,我想应该是算比例)
Se=sqr[X(1-X)/N]
N=1210
张朝阳的估计值=X*13=1.75

小彭答（ 2006-05-04）：怪怪，我的步骤和SL的完全一样呀，得出的结果居然不同？
把草稿翻出来，发现我是用X＝0.5了。用小时候老师的话来说就是没有审清题意就开始做题了。

amy答（2006-05-04）： 1210 (1.3 billion) *-*

CN答（2006-05-05）： se=0.00981043，n=2596.9216，请庄主批改作业。

amy答（2006-05-05）：补上步骤：
1.5~2.0 亿： mean＝1.75亿
so, 用percentage的公式（因为不纏opulation variance)：
1.75/13=13.45%
13.45%=1.96* Sqrt (13.45%(1-13.45%)/n)
...
n=1210

庄主评（2006-05-07)：讨论得挺热闹，基本上分两派：1210 (或1257) vs. 2597。其差别来自对“总体方差”(population variance)的不同估计。前者是用样本方差（即13.46% X 86.44% = 11.65%）来估算、而后者是用理论值（即假定总体中网民与非网民是50对50，其实就是一个虚无假设，Null Hypothesis)来估算（50% X 50% = 25%）。两者（11.65% vs. 25.00%）相差一倍多，所以最后的样本量也相差一倍多（1210 vs. 2597）。

哪个合理？这是一个见仁见智的问题。我倾向后者。首先，任何一个样本方差并不等于总体方差。而且，样本方差是在调查完了才知道而抽样误差则在调查前（即确定样本量时）就要确定的。在本例中，张朝阳在做他的调查前（假定他真的做过），并不知道网民数（即那个1.75亿或13.46%），所以要用上面的Null理论值，那么当他决定抽一个N = 1210的样本时，其抽样误差为SQRT(50% X 50% / 1210) X 1.96 = 2.81%。（再说一遍，这一切是在调查前已被确定了的。）调查后，他发现样本的13.46%是网民，根据事先确定的抽样误差 2.81%，其推及总体的区间估计应在1.38到2.11亿（而不是1.5到2.0亿）。