分享

适合初学者的八种数据科学的抽样技术

 天下小粮仓 2019-10-18
全文共3210字,预计学习时长6分钟

你一定经历过这种情况:下载了一个大型数据集,开始进行分析并建立机器学习模型。但在尝试加载数据集时,计算机突然显示“内存不足”错误。

这是数据科学中面临的最大障碍之一——用运算能力有限的计算机处理大量数据。

那么如何克服这个长期存在的问题呢?是否有一种方法可以选择数据的子集进行分析,还可以很好地表示整个数据集呢?

适合初学者的八种数据科学的抽样技术

有的!这种方法称为抽样法。在学校或大学期间,甚至在职业生涯中,都经常碰到这个术语。抽样是收集数据子集并进行分析的好方法。但是,是否应该随机挑选子集呢?

本文将探讨八种不同类型的抽样技术,及其适用的情况。这是一篇适合初学者的文章,其中一些描述性统计的知识也很有用。

适合初学者的八种数据科学的抽样技术

目录

1. 什么是抽样?

2. 为什么需要抽样?

3. 抽样的步骤

4. 不同类型的抽样技术

5. 概率抽样的类型

6. 非概率抽样的类型

适合初学者的八种数据科学的抽样技术

什么是抽样?

首先,抽样的定义如下。

抽样是一种可以基于总体子集(样本)的统计信息来获取总体信息,而无需分别调查每条信息的方法。

适合初学者的八种数据科学的抽样技术

上图完美地说明了什么是抽样。可以通过示例更直观地了解抽样。

比如,求德里所有成年男性的平均身高。德里的人口大约为3千万,男性大约为1500万(这些只是该例的一种假设,因此请不要信以为真!)。可以想象,要知道德里所有男性的平均身高几乎是不可能的。

也不可能接触到所有男性,因此无法真正地分析整个人口。那么能做什么呢?可以提取多个样本,计算所选样本中个体的平均身高。

适合初学者的八种数据科学的抽样技术

但是,接下来又有一个问题:如何取样呢?应该随机抽样吗?还是必须询问专家?

假设调查者可以去篮球场,以所有职业篮球运动员的平均身高作为样本。这不是一个好样本,因为一般而言,篮球运动员的身高要比一般男性高,这样对平均男性身高的估计不准确。

有一个潜在的解决方案:在随机情况下寻找任意的人,这些人的样本不会因为身高问题产生偏差。

适合初学者的八种数据科学的抽样技术

为什么需要抽样?

你一定知道答案。

进行抽样是为了从样本中得出有关人群的结论,以便通过直接观察群体的一部分(或样本)来确定该人群的特征。

· 与选择群体中的每个个体相比,选择样本所需的时间更少

· 样本是一种经济高效的方法

· 与分析整个群体相比,对样本进行分析简单方便而且更加实用

适合初学者的八种数据科学的抽样技术

抽样步骤

通过将概念可视化可以记得更牢固。因此,下面以流程图的形式呈现抽样的各个步骤。

适合初学者的八种数据科学的抽样技术

可进行一个有趣的案例研究,并按照以下步骤进行抽样。几个月前,印度举行了大选。当时每个新闻频道都在跟进民意测验:

适合初学者的八种数据科学的抽样技术

这些结果涵盖了印度所有9亿选民的意见,还是仅考虑了一小部分选民的意见呢?一起看看这是如何进行的。

第1步

抽样过程的第一步是明确目标人群。

因此,为了进行民意调查,投票机构仅考虑18岁以上且有资格进行投票的人群。

第2步

抽样框架:构成抽样样本的个体或人群的列表。

因此,抽样框架会将所有选民姓名都写在某选区选民名单上。

第3步

通常,使用概率抽样方法是因为每个投票人都具有同样的价值,并且任何人都可以被包括在样本中,而不管其种姓、社区或宗教信仰如何。从该国家不同地区选取不同样本。

第4步

样本数量——样本中要采集的个人或物品的数量,要足够对这一人群做出精准的推断。

样本量越大,对这一人群的推断就越准确。

对于民意测验而言,机构试图让有不同背景的人群尽可能多地包括在样本中,因为这将有助于预测一个政党可以赢得的席位数。

第5步

一旦确定了目标人群、抽样框架、抽样技术和样本数量,下一步就是从样本中收集数据。

在民意测验中,机构通常会向人们提一些问题,例如要投票给哪个政党或之前的政党做了什么工作等等。

根据答案,各机构会试图解读出选民将投票给谁,以及某个政党大约可以赢得多少席位。这项非常令人兴奋,对吧?

适合初学者的八种数据科学的抽样技术

不同类型的抽样技术

这是另一个图解说明,介绍了不同类型的抽样技术:

适合初学者的八种数据科学的抽样技术

· 概率抽样:在概率抽样中,群体中的每个人都有被选择的平等机会。概率抽样提供了一个真正代表群体的样本。

· 非概率抽样:在非概率抽样中,群体中的每个人都没有被选择的平等机会。因此,可能出现非代表性样本,这种样本无法产生概括性的结果。

例如,假设某个人群有20个人。每个人从1到20进行编号,并用特定的颜色(红色、蓝色、绿色或黄色)表示。每个人在概率抽样中被选出的几率为20分之一。

对于非概率抽样,这些几率并不相等。一个人可能比别人更有可能被选中。现在,已经对这两种抽样类型有了一个概念,再深入了解每种抽样类型,了解每个部分下的不同抽样类型。

适合初学者的八种数据科学的抽样技术

概率抽样的类型

简单随机抽样

这种抽样技术十分常见。在简单随机抽样中,每个人都是被偶然选出来的,群体中的每个成员被选中的机会均等。

简单的随机抽样可减少选择偏差。

适合初学者的八种数据科学的抽样技术

该技术的一大优势在于这是概率抽样的最直接方法。但有一个警告——可能无法选择出具有所需特征的足够多的个体。蒙特卡洛方法通过重复随机抽样来估计未知参数。

系统抽样

在这种抽样方式中,第一个个体是随机选择的,而其他个体则使用固定的“采样间隔”来进行选择。举一个简单的例子来理解这一点。

假设某一群体的规模是x,需要选择的样本量为n。然后,选择的下一个个体将是第一个个体的x / n个间隔。可以用相同的方式选择其余样本。

适合初学者的八种数据科学的抽样技术

假设从3号开始,需要的样本数量为5。因此,接下来将选择的第二人与第三人的间隔为(20/5)=4,或7 (3+4), 等等。

3, 3+4=7, 7+4=11, 11+4=15, 15+4=19 = 3,7, 11, 15, 19

适合初学者的八种数据科学的抽样技术
适合初学者的八种数据科学的抽样技术

系统抽样比简单随机抽样更加方便。但是,如果存在某种潜在模式,则可能导致偏差(尽管这种情况发生的机率非常小)。

分层抽样

在这种类型的抽样中,根据性别、类别等不同特征将群体分为多个子分组(称为阶层)。然后,从以下子分组中选择样本:

适合初学者的八种数据科学的抽样技术

首先根据红色、黄色、绿色和蓝色这些不同颜色将群体分为多个子分组。然后,从每种颜色数字在群体中的比例选出个体。

当需要该群体所有子分组的典型代表时,可以使用这种类型的抽样。但是,分层抽样需要了解一定的群体特征。

聚类抽样

在聚类样本中,使用群体的子分组作为抽样单位,而不是个体。群体分为多个子分组,可称为聚类,随机选择某个聚类以进行研究:

适合初学者的八种数据科学的抽样技术

上例中将群体分为5类。每个聚类由4个个体组成,在样本中采用了第4个聚类。根据样本量,可以包括更多的聚类。

当需要关注特定地区或区域时,可以使用这种类型的抽样。

适合初学者的八种数据科学的抽样技术

非概率抽样的类型

方便抽样

这可能是最简单的抽样方法,根据个人的可用性和参与意愿来选择样本。

假设编号为4、7、12、15和20的个人希望参与抽样调查,那就把他们包含在样本中。

适合初学者的八种数据科学的抽样技术

方便抽样容易产生明显的偏差,因为样本可能无法代表某些特征,例如群体的宗教、性别等特征。

配额抽样

配额抽样根据群体的预定特征选择项目。比如在本例中,必须选择数字为四的倍数的个人作为样本:

适合初学者的八种数据科学的抽样技术

因此,编号为4、8、12、16和20的个人已经成为预定样本。

在配额抽样中,所选样本可能无法较好地呈现未考虑的群体特征。

判断抽样

也称为选择性抽样。对样本的选择取决于专家的判断。

适合初学者的八种数据科学的抽样技术

假设,专家认为,应该将编号为1、7、10、15和19的个人作为样本,因为这些样本可以帮助更好地推断这一群体。可以想象,配额抽样也容易受到专家的影响,也不一定具有代表性。

雪球抽样

这种抽样技术要求现有抽样人员推荐更多自己所认识的其他人员,以便样本的数量像滚雪球一样增加。当抽样框架难以识别时,这种抽样方法很有效。

适合初学者的八种数据科学的抽样技术

例如,随机选择了1号人员作为样本,然后他(她)推荐了6号人员,6号人员又推荐了11号人员,依此类推。

1-> 6->11-> 14-> 19

雪球抽样也可能存在选择偏见,因为被选择的个体与推荐他们的个体具有共同的特征。

适合初学者的八种数据科学的抽样技术

如需转载,请后台留言,遵守转载规范

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多