分享

马兆林:互联网 大数据变革 这些坑不能踩

 新晨srmmkgxap6 2017-04-08

事实上,获得的更多或所有的数据未必带来正面的业务影响。通常情况下,人们会认为获得数据越多越好,尽可能的获取所有数据,不应该把数据浪费掉。但是实际上,如果所收集的数据杂质太多,即便是收集的数据十分全面,量非常大,但是也会整体上拉低数据分析结果的准确性。这就要求我们在获取数据前,应当对数据的进进出出的每个环节做出一个清洗、筛选的处理或限定设置。与此同时,数据链的每个环节都会有所交互,数据处理完之后的信息可以供下一环节使用,或者后边的环节为前边环节产生反馈,促进前边环节制定处更好的结果。此外,数据是不断更新的,我们在采集数据的时候也需要有所筛选,从而采集那些实时的有价值的数据信息,陈旧的数据已经不再适应我们不断发展变更的市场了,分析和处理那些陈旧的数据不但会影响我们做出决策的效率,还会让我们做出的决策产生偏差。

鲁四海:确实数据并不是越多越好,价值在于真正用起来。我们也注意到很多企业往大数据方向转型,有的企业认为有了大数据这层屏障,就能够保证企业无论是现在还是未来的发展必然会畅通无阻,您怎么看?

马兆林: “大数据”目前已经是业界和学术界舌尖上的热词,大数据技术具有广阔的发展前景,大数据就像一个传奇人物一样受到人们的青睐和敬仰。诸多企业纷纷挖掘大数据的潜在价值,期盼自己能够跻身在这茫茫商海中,有的企业甚至认为有了大数据这层屏障,就能够保证企业无论是现在还是未来的发展必然会畅通无阻,万无一失,也不足为奇。但是事实真的如此吗?

事实上,事情并不是人们想象的那样。大数据也会存在一定的问题,也会面临一定的风险,不能保证任何时候都是万无一失。

大数据样本代表性。我们在收集数据的时候,并不能够收集到全数据,而大数据通常是涵盖了大规模、精准、细化等完美的字眼,这时候,我们收集到的数据就与大数据的样本代表性相挂钩,一旦抽样,在选样、测量以及误差矫正方面就会不尽如人意,好的数据将被恶劣化,大数据将被虚化。

大数据真实性。在大数据十分庞大的今天,注水性数据也不乏混入其中,数据造假获利的事例也越来越多,因此,面对网络发布的如此多的的信息,我们对其大数据的真实性难以辨别。数据源是否具有真实性、全面性,以及处理方法是否具有科学性,是大数据走向权威和可信的必要保障。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多