分享

有关样本的随想

 sdwindy 2010-06-01
有关样本随想
吏英
我们知道,样本是从总体中抽取的。然而从总体中抽取样本可以有不同的抽法,一般而
言大致分为随机抽样和非随机抽样。非随机抽样在很大程度上受主观因素影响,效果不如随
机抽样好。由于样本是总体的一部分,则利用样本特征来推断总体特征会不可避免地产生误
差,样本误差的大小与抽样方法的选取有很大关系。有的样本能很好地代表总体,有的则不
然,即样本有好样本和坏样本之分。
一个好的样本应该具有两个最重要的特点:(一)随机性 即总体中每一个个体都有同等
机会被选入样本。(二)独立性 即样本中每一样品的取值不影响其它样品的取值。因此要想
取得好样本,必须遵循以上两个特点,以科学性和客观性为前提。但是取得坏样本比取得好
样本来得容易。下面举几个例子来说明这一点。
在路易斯安那州的瑞皮德斯堂区只有一家公司有权提供救护车服务。当地的报纸《镇报》
要求读者打电话回应,来表达他们是否赞成让这家公司垄断。这类电话回应通常采用自动化
处理:赞成就打某个电话号码,不赞成则打另外一个号码。电话公司通常向打电话的人收费。
结果《镇报》共接到3763 个电话,显示出对于救护车超乎寻常的关切。经调查发现,有638
个电话来自救护车公司的办公室或公司高级主管的家里,而且无疑的,一定还有更多是较低
阶层的员工打来的。该公司的一位副总裁说:“我们有员工很关心这个状况,他们为工作稳
定性及家庭担心,所以可能多打了几个电话。”另有消息来源说,员工被嘱咐“早些投票,
多多投票”,就像早年芝加哥黑帮控制选举时所说的一样。
一般人会说3763 这样大的一个样本已经足够了,但是从统计角度出发,我们难免生出
这样的疑问:样本是不是越大越好?样本的取得过程是否合乎规范?该报让大家打电话,有
人会打了又打,一打再打,有些人却从来没打过一个电话,这样的抽样设计肯定不合理,因
为它没有遵循样本的随机性原则,带有很大的片面性。该报要大家自己打电话进来,而不是
主动抽取样本,所以结论很容易产生较大的偏差。如果采用分层抽样,把所有读者进行合理
分层,然后按照比例配置或者最优配置等方法从各层中抽取样本,这样得到的样本能很好地
代表总体,而不会出现极端现象,得到的结论自然比总体抽样准确真实。
专栏作家蓝德斯有一次问她的读者:“如果可以重来一次,你还要孩子吗?”她接到近
一万份答复信,其中接近70%的人说不要孩子。难道我们就说70%的父母都后悔有孩子吗?
当然不能这样讲了。事实上,大多数人认为,一生没有子女是一件很遗憾的事情。那为什么
会得到“接近70%的人说不要孩子”这个令人难以置信的结论呢?通常对某个议题有强烈感
觉的人,尤其是负面感觉的,他们会比较不嫌麻烦地去回应。从这一想法考虑,可知她的意
见调查结果有高度偏差,她的样本中宁愿不要孩子的父母百分比远大于全体父母中不要孩子
的父母百分比。造成这样结果的根本原因还是由于样本选取不当,亦是违背了随机性原则。
在购物中心进行访谈是另一个例子。制造业者和广告代理商常常利用在购物中心的访谈
来搜集消费者的消费习惯及广告的效用等信息。这样取样本对于调查者来说既快速又方便、
省钱,但访谈到的人并不能充分代表整个国家人口,因此这样的调查并无多大实际意义,更
达不到调查的目的。可能这些被访者比较有钱,或者大多数是青少年和退休的人。此外调查
者倾向于从顾客中选择外表整洁,看起来不具威胁的人。正因为有种种人为因素的干扰,得
到的结果必然存在较大偏差。
我们在实际生活中也曾经不止一次地做调查问卷,得到的结果也不是很客观。比如说,
调查学生使用违章电器的情况,其中有这样一题:“你在宿舍用电炉等违章电器吗?”可以
供选择的答案有:A 从来不用 B 偶尔用过 C 经常使用。一般人都会选A,也可能有极少
数人选B,但不可能有人选C 的。其实经过观察,我们会发现有人经常使用违章电器,然而
使用者不可能坦白交待自己的过错。这样一来,没用过违章电器的人如实作答,用过违章电
器的人隐瞒事实,得出的调查结果毫无疑问是大快人心的。再比如,有很多心理测试问卷设
计也很不合理的。
我们日常生活中还见过很多类似的坏样本,因此对于任何一个样本,首先要问该样本是
不是随机抽取的,切不可轻信那些数字显示,而要以统计学的眼光去看待并从中找出问题然
后想办法解决它。
比如,为了科学地、有针对性地开展高校大学生思想工作,准确地了解大学生的学习生
活状况,2004 年11 月底在湖北省某高校的全日制在校大学生中实施了一次近千人的大样本
抽样调查工作。在调查的组织形式上,以性别、年级及学科类别作为分组标志,采用分类抽
样的方式抽取样本单位,进行随机抽样调查。这次调查是在全校各学院展开,共发放问卷
990 份,回收有效问卷900 份。其中性别抽样分布为:男性占45.56% 女性占54.44%。年级
抽样分布为:大一占25.89%,大二占17.11%,大三占32.22%,大四占24.78%。民族抽样分
布为:少数民族占39.67%,汉族占60.33%。政治面貌抽样分布为:党员占7.78%,团员占
89.22%,其他占3%。籍贯抽样分布为:来自东部地区的占18.27%,来自中部地区的占70.33%,
来自西部地区的占11.4%。学科类别抽样分布为:文科生占57.78%,理科生占42.22%。该
调查告诉了我们总体是什么(湖北省某高校全日制在校大学生),样本大小为1000 左右,最
重要的是该样本是随机抽取的。从它的数据分布来看,应该很接近真实情况。就拿籍贯这项
来说吧,湖北位于我国中部,周边还有很多省市也属于中部地区。湖北高校的学生以湖北人
为主,再加上其他来自中部地区的学生,差不多在70%以上,东部的人口比西部多,因此这
样的分布还是很准确的。
总之,样本既然要反映总体,就必须具备两个基本条件,才能为我们提供真实可靠的信
息。一个成功的样本绝对不是通过简单随便的方法及途径得到的,因为从数据到结论需要以
强有力的科学统计方法作辅助工具,这里面其实很有学问的。一般人认为数据最有说服力,
即所谓的“用数字说话”,这里面“数字”的得来就成了关键环节。
参考资料:《统计学的世界》第五版 第2 章 中信出版社
《统计教育》 2005.10

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多