分享

张朝阳的样本量与抽样误差(小结篇)

 飞在路上 2006-12-30
庄主 @ 2006-05-07 20:48

庄主问(2006-04-09):张朝阳根据他们自己的研究(但没有公布任何方法细节),中国网民应达1.5-2.0亿。从方法角度算算,在95%置信水平上,张的区间估计(1.5-2.0亿)所对应的抽样误差是多少?其样本量又有多大?【注:已告知你需要的所有数据(中国人口、张的网民数、抽样误差公式)。】(原文:中国网民上网时间超过美国网民15?)
SL答(2006-05-02):张朝阳的区间估计所对应的抽样误差(95%置信度)0.25,样本量为1257. 嘿嘿,劳动节找点活干干.不知算对没有.(中国人口算的13亿

庄主评(2006-05-03):可惜不对,但是nice try,给个B如果 n = 1257,区间估计值应该在1.42.1亿之间。大家自己填入中间步骤,以理解这个结论是如何得出的。不要小看这种只用到小学算术的题目,对于帮助理解抽样方法很有价值。

小彭答(2006-05-03): 我得到的结果(样本数)是2597(人口为13亿)。

SL答(2006-05-04):95%置信度下的估计区间为:
估计值(X=网民占总人口的比例)+-2Se[抽样误差(sampling error=standard error)]
X+1.96Se=2.0/13
X-1.96Se=1.5/13
X=0.134615
Se=0.0098116
(
因为是否是网民是一个二分定类变量,我想应该是算比例)
Se=sqr[X(1-X)/N]
N=1210
张朝阳的估计值=X*13=1.75 

小彭答( 2006-05-04):怪怪,我的步骤和SL的完全一样呀,得出的结果居然不同?
把草稿翻出来,发现我是用X0.5了。用小时候老师的话来说就是没有审清题意就开始做题了。 

amy答(2006-05-04): 1210 (1.3 billion) *-* 

CN2006-05-05): se=0.00981043n=2596.9216,请庄主批改作业。 

amy2006-05-05):补上步骤:
1.5~2.0
亿: mean1.75亿
so,
percentage的公式(因为不opulation variance)
1.75/13=13.45%
13.45%=1.96* Sqrt (13.45%(1-13.45%)/n)
...
n=1210 

庄主评(2006-05-07)讨论得挺热闹,基本上分两派:1210 (1257) vs. 2597。其差别来自对总体方差”(population variance)的不同估计。前者是用样本方差(即13.46% X 86.44% = 11.65%)来估算、而后者是用理论值(即假定总体中网民与非网民是5050,其实就是一个虚无假设,Null Hypothesis)来估算(50% X 50% = 25%)。两者(11.65% vs. 25.00%)相差一倍多,所以最后的样本量也相差一倍多(1210 vs. 2597)。

哪个合理?这是一个见仁见智的问题。我倾向后者。首先,任何一个样本方差并不等于总体方差。而且,样本方差是在调查完了才知道而抽样误差则在调查前(即确定样本量时)就要确定的。在本例中,张朝阳在做他的调查前(假定他真的做过),并不知道网民数(即那个1.75亿或13.46%),所以要用上面的Null理论值,那么当他决定抽一个N = 1210的样本时,其抽样误差为SQRT(50% X 50% / 1210) X 1.96 = 2.81%。(再说一遍,这一切是在调查前已被确定了的。)调查后,他发现样本的13.46%是网民,根据事先确定的抽样误差 2.81%,其推及总体的区间估计应在1.382.11亿(而不是1.52.0亿)。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多