大数据 ——划时代 大数据,引领科技,提升智慧。 一、表象:海量数据集合 英国科学家维克托·迈尔-舍恩伯格《大数据时代》提出,四个世纪之前,发明望远镜,拓展宇宙观测;发明显微镜,深入微生物观测。那么,今天的数据测量,就是现代版的望远镜、显微镜。大数据时代,是一场革命。随着社交网络逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富,以及更多传感设备、移动终端接入到网络,由此产生的数据,比任何时期都多,大数据越来越快地改变我们的时代。 什么是大数据?大数据是海量数据的集合,反映一段时间内,某一样本的活动趋势,是现代社会极具价值的信息资产。所谓“大数据”,是针对过去“小”、局部性而言。它是关于这件事的,尽可能完整的数据。 大数据需要新的处理模式,才能具有更强的决策力、洞察力和流程优化能力,来适应海量、高增长率和多样化的信息资产。 二、内涵:相关胜过因果 关于大数据特性,维克托指出:不再探求难以捉摸的因果关系,转而关注事物的相关关系。相关关系比因果关系更重要。 大数据主要为了预测未来“是什么”,而不是“为什么”。因为很多时候,人们以为找到了事情背后的原因,实际上却没有找到。更多时候,知道“是什么”,就足够了。例如,知道流感将会扩散到哪里,就足够了,不需要知道为什么;知道什么时候,在网上购买机票,能够获得最优惠价格,就足够了,不需要知道,为什么此时价格最低。 在哲学界,关于因果关系争论,持续几个世纪。焦点在于:如果因果关系普遍存在,每一个果,都有一个因与之对应,那么,人们就没有决定任何事情的自由了。 因果关系,不是百分之百;相关关系,却是千分之千。大数据,揭示了这一真理。 三、应用:采集分析处理 大数据领域,数据不仅包括数字,还包括所有格式东西,比如日志,音频视频,文件等。 技术上包括,这些海量数据,采集,过滤,清洗,存储,处理,查看等等。每一个部分都包括,大数据相关技术框架支持。 例如,淘宝双十一总交易额,由全国淘宝用户交易记录,汇聚而成,数据量很大。做到实时展现,需要强有力大数据技术处理。 数据量大,找地方存储,一个服务器硬盘,不能满足大数据存储,需要分布式存储系统。把大数据分开存在,几百甚至几千台服务器上。 淘宝购物,需要注册账号,然后选购商品、加入购物车、付款发货、货物的物流信息等,都会存储到淘宝服务器,每天以亿计数。通过分析,了解用户的购物喜好,某些产品的销售量等,挖掘大数据结果,然后向用户推送指定商品,给你我带来便利。 当然,各行各业,收集数据,各有侧重。将各种数据分类汇总,最终通过高精尖平台运算,分析其中规律,就是大数据应用。如果数据收集得当,任何行业、任何事情,都可以运用大数据寻找规律,最终做出最优的小抉择。 四、结果:思维方式变革 大数据从根本上,改变人们认识世界,和改变世界的方式。很多传统习惯,将被颠覆;很多旧的制度,将面临挑战。 首先,科学探究思路和方式受到挑战。原来科学探究,基本路径是:发现问题,提出假设,制定方案,实践探究,分析数据,得出结论。 这样的探究路径,与我们对问题知晓信息过少有关。需要从很小数据出发,进行试探性研究,如果研究得出结果,与自己假想一致,则说明假说正确。 而在大数据时代,获得大量数据后,能够对事物的整体,进行全面认识,假想已经没有意义,可以直接根据全面的数据,做出结论。 其次,传统的思维习惯受到挑战。因果关系思维,是人们生活中,普遍的思维方式。既是看上去没有关系的事情,人们也总是从因果角度去理解。例如, 在大数据时代,相关关系比因果关系更重要。2009年甲型H1N1流感发生,美国卫生系统,极力想从因果关系上,找到流感源头,但信息反馈速度太慢,让专家们束手无策。谷歌公司做出快速反应,把5000万条美国人最频繁检索的词条,和美国疾控中心2003年至2008年间,季节性流感传播时期的数据,进行比较,研究特定检索词条的频繁使用,与流感在时间和空间上传播之间联系,很快确定流感是从哪个地方传播出来。谷歌采取的就是相关关系分析方法,而不是因果关系分析方法。 大数据,将相关关系研究,推向新阶段,给人类认识世界,建设世界,开辟出一条崭新的道路。 |
|