分享

“数据采集”系列之一 | 为什么要采集数据?

 一兵个人图书馆 2018-11-20

为什么要收集数据?这是个问题吗?可能很多人认为这不是问题。在大部分情况下我也觉得不是问题,但有些时候确实是一个很大的问题,特别是没有数据思维、不喜欢量化的中国人。


每个单位乃至每个人收集数据都有其目的,但有些人做着做着就忘了,变成了为数据而数据。在企业中最常见的有假数据、伪数据、改数据、张冠李戴数据、死后数据、失真数据、形而上的数据等等,似乎体现出了用数据说话,其实是表面文章,忽悠客户同时也忽悠了自己,并且还口口声称六西格玛强调用数据说话,滑天下之大稽。



虽然六西格玛强调用数据说话,但并不是说你拿一堆数据出来就完了,还要记得收集数据的原因,学会运用恰当的方法从枯燥的数据中提取出有价值的信息,这些信息才是你真正想要的东西。数据不会自己说话,那些鼓吹大数据会自己说话的专家其实是瞎忽悠。如果你事先对数据分析的目的没有清晰的认识,再多的数据也是白搭。


更有甚者,有些项目为了好看,故意修改和编造一些数据,随意剔除一些看起来异常的数据,这些做法实在有违初衷,这样的项目做反而不如不做。当然有些数据收集的目的也并不纯粹,存在故意挑毛病的现象。


在收集相关素材的时候,发现了这样一个挺有意思的故事,特别想拿出来跟大家分享一下。


在英国有一个JohnBennetLawes爵士,他的父亲是个庄园主,就是Rothamsted的所有者。1822年,Lawes八岁那年他父亲去世了,家道衰落。他母亲将庄园里的房子租了出去以供他读书,先是伊顿公学,然后牛津。1834年,房客离去,他母亲又回到了庄园,正读大二的Lawes也退学回家帮母亲打理庄园。出于对科学的浓厚兴趣,他将一间卧室改装成实验室,尝试做了很多实验。


John Bennet Lawes爵士


1843年开始,Lawes与其助手,化学家JosephHenryGilbert一起开始了他与Lawes开始了一系列长期田间试验-这是世界上最早的长期试验,而且这其中的大部分试验一直延续到了今天!这些试验的目的是测量无机肥和有机肥对作物产量的影响,即所谓的“Classical FieldExperiments”。


这些试验的结果正日益显示出它独一无二难以估量的价值:气候的长期变化对作物生产的影响。这份耐心足以让我们由衷地敬佩,这不就是现在人们天天挂在嘴边的工匠精神吗?可惜说归说,做归做,很多人还是希望成为风口上的猪,可以借风飞舞。


但是他们的实验也遇到了一个很大的问题,积累了几十年的数据已经是“海量”数据了,加上农业田间试验固有的可变性,怎么分析这些数据成了非常棘手的问题,显然这需要合理的统计方法。


于是统计界的大神费歇尔适时出现了,正是在Rothamsted农业实验站,费歇尔面对积累了90年的数据,创造性地提出了很多统计方法,著名的方差分析、试验设计等等都诞生于此,这些方法已成了数理统计学的主流。


费歇尔


可想而知,如果没有明确的目标,这90年的数据可能早就不知去向了,那样的话,统计学的发展可能还要再滞后几十年。


 注:关于Rothamsted农业实验站的内容部分来自翟保平先生的博客,有兴趣的可以查看这个链接:

http://blog.sciencenet.cn/home.php?mod=space&uid=235&do=blog&id=7785


那么数据收集的目的到底是什么呢?我的理解是获取可靠信息,然后在可靠信息的基础上做出恰当的决策。我认为没有所谓“正确的决策”,只有基于当时当地所获取信息的恰当决策。这就需要我们老老实实地收集真实的数据,并且运用恰当的分析方法从中提炼出可信的信息,这一点也说明了掌握统计学的重要性,否则你那一堆原始数据谁看呢?


对于数据收集来说,在我看来,大致分成这两类:


类是事先已经建立模型,需要根据模型的需要来收集数据,如比较分析、回归分析、测量系统分析控制图试验设计等等。


一类是事先没有模型,试图从原始数据中找出有用的信息。这通常是探索性数据分析(EDA)的范畴,现在流行的大数据等大致也属于这一类。六西格玛项目立项时的数据分析通常也属于这一类。当然这一类的分析需要不断的建立、验证和优化模型,最终获得满意的模型。


数据收集中需要注意的几个问题:


1


数据收集计划:在所有的六西格玛教材中都会提到要制定数据收集计划,但实际真正能够做到的却并不多。详细的数据计划能够让我们少走弯路,提高效率和控制成本。尤其是像DOE这样比较复杂的试验,更需要我们仔细地进行策划。

2


数据来源:这是非常常见的一个问题。我们经常能够看到项目中列出的数据没有交代时间、地点、方法、条件等必要的信息,有些数据表就几列数据,让人摸不着头脑,对数据的真实性更无法做出判断。建议在数据收集之前,制定完整的数据收集表格,这些表格中要包括时间、地点、测量工具、测量方法、测量条件、测量参数、测量人等等。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多