分享

大数据是否需要抽样?

 愚老愚 2017-07-26

【编者按】大数据是一个很火的词,但并不是一个新词,以往因为无法预计总体,所以需要抽样,当你有足够的数据时,是不是就不需要抽样了呢?毕竟有抽样就意味着有抽样误差,也意味着,没有了抽样,整个统计学的次序将被改写。关于大数据要不要抽样的话题来自新浪微博@张磊IDMer博士发起的一个讨论话题,期间很多网友都参与了讨论。下面是中国统计网整理的关于大数据的分析是否还需要抽样的精彩评论。

【问题】
@张磊IDMer:大数据现在很热乎,疑问:大数据的分析是否还需要抽样?如果抽样可以做同样的分析,那么大数据和以前的数据分析有何区别?什么情况下,对大数据抽样是不合适的?

【百家观点】

刘德寰:大问题:Would the insight gained from analyzing the population vs analyzing the sample differ widely? //: mark!抽样是个高效便捷的方法论,越大的数据越需要抽样,只是对抽样的要求会更高,也感谢@刘德寰老师很早就提出类似思想,英雄所见略同!

郭健IT:大数据分析和抽样并不矛盾。分布式(map-reduce等)和实时处理(流计算,内存计算)的发展,让大规模数据分析成为可能。但从效率和成本的角度考虑,适当和合理的抽样也是有必要的。就像两个极端,而我们总是要找到一个tradeoff。

独角兽老头:大数据的分类与聚类应该比抽样更有效果。一但涉及抽样,就会涉及到样本的代表性问题。我认为,大数据的潜在价值就在于数据之间的潜在关联性与未知性,如果一旦抽样,就会失真。取样还不如降维,欢迎讨论。

@icecile: 如果想清楚了大数据分析最终应用,这个问题的答案很简单,大数据分析不像统计分析以洞察总体或群体特征为目标,而是以每个个体特征分析并以其特征作为分析应用(营销、销售、服务)支撑为目标,所以,大数据分析对象显然不是基于抽样,无需抽样。当然,不排除以抽样作统计探索的中间过程。

数云老段:10年面对1000万数据跑不动抽样100万的数据来玩;5年前1亿数据跑不动抽1000万来玩;3年前100亿的数据跑不动抽1亿来万。。。抽不抽样关键看你能不能实现全量运算或者接受实现它的代价。

逍遥横峰:在做分析研究研究时候有数据导向和理论导向。大数据可以挖掘个体之间和个体不同属性之间的关系,在商业领域已经足够,毕竟在商务领域很多时候结论已经足够;但是理论导向来说,再是实现实证研究,即使用的数据是big data也只不过是样本量巨大的sample罢了。大数据不过是数据量上的一个变化。

smile_linao:个人认为这个解释非常片面,大数据分析不完全等于个性化分析与应用;而个性化分析与应用也不完全等于只对个体特征进行分析。

曾松峰:面向总体或群体的大数据分析如通过个人搜索、购买等行为预测行业趋势,数据的覆盖面不可能达到百分百,这类应用中大数据本身就是样本,但是数量够大,不用像传统抽样那么需要经过精心的挑选;面向个人服务的大数据分析,如大数据时代中的飞机误点预测,大数据的完整已经足够了,无需抽样。

易铎:在ETL阶段,数据剖析子系统里抽样是必须的,否则大数据的数据质量无法保证。在分析阶段如果误差能够接受,占用空间小,速度快,完全可以抽样或近似。

aRaymond:1资源限制-如时间、特定目的-如策略测试,抽样分析依然适用;2"大"数据也是对"真相"的抽样,比过去获得了更多信息;3抽样对应了分布规律一致的假设,如同每个算法都有适用的局限,违背了就不合适。两者根本不矛盾,一个表象,一个术。

C3_BTB:如果能高效处理大数据,就不应该抽样了吧 1、抽样是以前数据汇总及整理受技术限制下而出现的折中处理方案。 2、另外如果大数据已经是研究的总体而非大样本。那么很多算法都没价值了,因为很多算法都基于统计学的核心思路(假设检验)而衍生的(通过样本估计总体)。

Abner-Zhang:大数据主要表现在数据量大和数据维度多两个层面,个人认为,从实际应用的角度来讲,纬度少的数据分析根本不需要所谓的大数据,抽样完全可以解决;相反,如果要把多维度的数据分析透彻,那么大量的数据记录是必不可少的。

beamego:不需要抽样,大数据本身就是真实数据的部分抽样,只是更接近而已。大数据时代的基石是软件与硬件的不断升级以及通讯、传输能够承载。

@沈浩老师: 大数据要不要抽样?实践,如果读取一千万数据可能需要10分钟,当你认为抽样可以得到同样(统计)意义或预建模处理,是不是该考虑抽样了!所以建模过程一般都会用到抽样!另外,大数据往往需要过度抽样,比如放大流失样本!理论上再大的局部可能不如随机抽样有代表性.如果有10万记录,9万好人,1万坏人,把坏人样本放大到9万也是训练模型的一种思想!传统的统计分析一般是不这样!理论上再大的局部,不如随机抽样有代表性;但大数据你可能不知道总体是啥样子,不知道总体也就无所谓抽样代表性了!

扩展阅读
材料1:抽样就是对大数据的亵渎
材料2:大数据分析与我们知道的抽样
大数据抽样与否,其实这并不是个问题,关键在于我们是否有足够的资源去实现大数据分析。
材料3:抽样是否与大数据时代相关?
材料4:
抽样与否重要吗?

(责任编辑:admin)
转载请注明链接:http://www.//research/2014/1014/12453.html

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多