分享

到底样本量多大才合适?

 洪梅6jraxg3utr 2019-08-02

前几天,群里有学员问“做问卷调查时,到底多大的样本量才合适?”这个问题其实我在前面的推文如何选择合适的样本容量一文中讨论过这个问题。

在这篇推文中我们通过下方的这个公式估算了样本量。案例中给出了置信区间、误差幅度E,以及用于代替总体标准差σ的样本标准差s。


但这种已知总体标准差σ或样本标准差s的情况并不多见,我们遇到的现实情况往往更加复杂,问这个问题的学员之前一定也搜索过相关问题,只是依然没有得到明确的答案。所以这篇推文我力求简单明了,尽量省略背后的理论,让大家看了就能上手估算样本量。



  如何确定样本量?  


首先,确定研究样本量最简单的方式就是:看类似研究中的样本量是多少。我们做的很多研究前人都已经做过了,他们的研究结果有很好的借鉴意义。

不过你很难保证别人的研究准确性,特别是一些质量不高的论文并不值得信赖,你可能也会被带坑里去。

或者,如果你的样本量不算很大的情况下,你也可以根据自己的实际能力,尽可能多的进行调研,开展“小普查”。

不然,我们还可以使用公式估算样本量。在估算样本量大小的时候,如果样本量太小,样本缺乏足够的代表性,会影响研究的可靠性;如果样本量太大,有可能劳民伤财;同时,随机抽样过程中还应该尽量减少误差,使抽样效果最大化。因此,在计算样本量之前,研究者需要考虑的因素很多,其中包括:总体大小、置信水平、误差范围和标准偏差等多方面。



  你不得不了解的几个参数  


  1、总体大小  

在进行抽样调查之前,了解自己的研究总体非常有必要。这个总体大概有多少人?它们有什么特点?总体间的差异大不大?谁适合你的样本?……不同的总体可能会直接影响你的抽样方式和样本量。

  2、置信水平  

置信水平我在之前的推文中也已经多次提到了。常用的置信区间是95%、99%和90%;它们分别对应的z标准化分数是1.96、2.575和1.645。

置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;

在社科研究领域,通常使用95%的置信区间;即,95%的置信区间将会包含总体均值。

  3、误差范围(置信区间) 

抽样调查过程中不可避免会存在误差。简而言之,置信区间就是你对样本的调查结果允许的正偏差和负偏差。或者,换句话说,你调查的结果与真实结果之间的偏差。

比如你调查到某市的平均工资是5000元,误差幅度是5%,那么说明抽样误差在±250元以内。

在样本量相同的情况下,置信水平越高,置信区间越宽 。

  4、标准偏差  

标准偏差用来表示抽样个体值和整体均值之间的偏离程度。标准差越大,表明样本的离散程度越大,实际需要的样本量也就越多。

了解了上述参数的含义后,接下来我们可以尝试计算所需的样本量。



   计算样本量的几种情况    


  第一种情况: 

给定置信区间、置信水平和标准差的情况下估算样本量。

我在之前的推文如何选择合适的样本容量中已经讲过了,在此不再赘述。

  第二种情况: 

给定置信区间、置信水平,但不知道标准差的情况下估算样本量。

这时候,我们可以通过估计总体比例的方式选择合适的样本容量。

使用下面这个公式(Cochran公式):

注意:公式中𝑬的值和置信区间一般会事先确定,如果能够知道具体的总体比例𝒑,就能够直接求出样本量。但是在实际调查中,𝒑一般未知,可以采用试调查得到一个初始样本,以该初始样本的比例作为𝒑的估计值。

但𝒑的取值无法确定时,用𝑝(1−𝑝)的最大可能值代替实际的𝑝(1−𝑝),这个近似计算出的样本量比实际所需的样本量一般要大,只有当𝒑接近𝟎.𝟓时,样本量的计算结果才是精确的。

例如,预期以99%的置信区间和不超过1.5%的误差幅度估计样本量。根据公式计算过程如下:

  第三种情况: 

如果我们研究的总体较小,还可以使用以下公式修改我们在上述公式中计算的样本量:

这里n是用Cochran计算得到的样本量,N是总体大小,m是新调整后的样本大小。

在我们之前的例子中,如果调查总体是10000,我们会计算得到:

4269 /(1+(4269/10000))≈2992

因此,对于这个较小的人口,我们只需要2992个样本,样本量明显减小。



   样本量估算表   


下表是我在网上找到的样本量估算表,可供大家参考:

上述只是估算样本量的基本方法,其实在实际操作过程中,需要考虑的因素可能更多(不过对于一般的问卷调查基本够用了)。下面是大家常面临的几个问题:

1、  我们常说问卷样本量至少要是问卷量表条目(或自变量数目)的5-10倍,或10-20倍,这其实是为了方便后续开展因子分析和建立结构方程模型。

2、  我们在设置调查问卷的时候,如果设置了较多的分类变量(比如不同的职业、年龄段等),且要对它们进行分析和比较,那么请尽量保证每种类别的样本量超过30;如果按城市分类,尽量保证每个城市样本量不低于100。

比如你想要比较不同职业群体对某事件的看法是否存在显著差异?如果某个职业的样本量太小(小于5),则不能进行卡方检验。





统计分析软件Minitab中有非常丰富的计算样本数量的功能:

有兴趣进一步了解的可以下载安装Minitab,查看它的帮助文档进行学习。

在松鼠的课程《妙趣横生的统计学》中,对抽样相关的一系列知识点进行了十分详细的讲解,有学习需要的读者可以扫描下方二维码加入学习。

《妙趣横生的统计学

和SPSS一样,Minitab也是一款非常实用的统计分析软件,它拥有非常详细的帮助文档和丰富的统计分析方法;Minitab知名度可能不及SPSS,但很多方面比SPSS对新手更友好,其中的很多统计分析方法和SPSS形成良好的互补。

在松鼠的新课《常用试验数据分析|SPSS+Minitab》中,他主要以SPSS和Minitab为主要使用软件教授常用的试验设计和数据分析方法,大家可以扫描下方二维码,了解更多详情。

《常用试验数据分析|SPSS+Minitab》 

以上,我尽可能详细的介绍了估算样本量的过程。在实际研究工作中,大家还是要以自己的专业知识为基础,根据具体情况做决定。

在试验设计过程中,还存在很多样本量小于30的情况;对于这类数据,有对应的研究方法。

如果在阅读上述内容时,依然存在较多难以理解的概念,可以阅读我之前的历史推文,或学习相关课程。




你可能会遇到的问题




Q: 课程有效期?

A: 松鼠全部课程,都是购买后永久有效

Q: 课程观看方式?

A: 课程是上传在网易云课堂的,因此在电脑,手机,Pad都可以看(需要用购买课程的账号登录),其中手机和Pad上可以下载【网易云课堂APP】离线观看视频。

Q: 购买课程后,看课程不懂的地方是否可以提问?

A: 每个课程都有对应的课程QQ群,老师会在群里解答大家的疑问。

Q: 是否可以开发票?

A: 如果需要开发票,则不能使用优惠券,且购买前先联系小编沟通。

小编微信是:cccc_fys



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多