分享

大数据

 高信就好 2013-07-05

巨量资料(big data),或称大数据、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的4V特点:Volume、Velocity、Variety、Veracity。“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用,形成的智力资源和知识服务能力。

编辑本段基本介绍

  大数据时代的中国涂料行      随着云时代的来临,大数据[1](Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
  简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。
  大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。
  物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

编辑本段举例说明

  例子包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务 。

编辑本段特殊技术

  大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统
  一些但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载,监控,备份和优化大型数据表的使用在RDBMS的。

  处理

编辑本段大数据特点

  第一,数据体量巨大。从TB级别,跃升到PB级别。
  第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
  第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
  第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

编辑本段发展影响

  大数据意味什么?企业与厂商斯隆数字巡天收集在其最初的几个星期,比在天文学的历史,早在2000年的整个数据收集更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上和将获得的数据,每5天沃尔玛处理超过100万客户的交易每隔一小时,反过来进口量数据库估计超过2.5 PB的是相当于167次,在美国国会图书馆的书籍 。FACEBOOK处理400亿张照片,从它的用户群。解码最初的人类基因组花了10年来处理时,现在可以在一个星期内实现。
  “大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。
  大数据已经出现,因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。基本上,人们比以往任何时候都与数据或信息交互。 1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。

编辑本段相关信息

  最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
  “麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。”
  事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。包括EMC、惠普(微博)、IBM、微软(微博)在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。
  “大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在12月8日工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。

编辑本段大数据与Hadoop

      Hadoop旨在通过一个高度可扩展的分布式批量处理系统,对大型数据集进行扫描,以产生其结果。Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、HadoopMapReduce编程模型,以及Hadoop Common。

     Hadoop平台[2]对于操作非常大型的数据集而言可以说是一个强大的工具。为了抽象Hadoop编程模型的一些复杂性,已经出现了多个在Hadoop之上运行的应用开发语言。Pig、Hive和Jaql是其中的代表。而除了Java外,您还能够以其他语言编写map和reduce函数,并使用称为Hadoop Streaming(简写为Streaming)的API调用它们。与流数据分析

什么是流

     从技术角度而言,流是通过边缘连接的节点图。图中的每个节点都是“运算符”或“适配器”,均能够在某种程度上处理流内的数据。节点可以不包含输入和输出,也可以包含多个输入和输出。一个节点的输出与另外一个或多个节点的输入相互连接。图形的边缘将这些节点紧密联系在一起,表示在运算符之间移动的数据流。

  右图一个简单的流图,它可以从文件中读取数据,将数据发送到名为Functor的运算符(此运算符能够以某种编程方式转换所传入的数据),然后将这些数据传入另一个运算符。在此图片中,流数据被传送至Split运算符,而后又将数据传入文件接收器或数据库(具体情况视Split运算符的内部状况而定)。

Streams

     即,IBM InfoSphere Streams。在IBMInfoSphere Streams(简称Streams)中,数据将会流过有能力操控数据流(每秒钟可能包含数百万个事件)的运算符,然后对这些数据执行动态分析。这项分析可触发大量事件,使企业利用即时的智能实时采取行动,最终改善业务成果。

     当数据流过这些分析组件后,Streams将提供运算符将数据存储至各个位置,或者如果经过动态分析某些数据被视为毫无价值,则会丢弃这些数据。你可能会认为Streams与复杂事件处理(CEP) 系统非相似,不过Streams的设计可扩展性更高,并且支持的数据流量也比其他系统多得多。此外,Streams还具备更高的企业级特性,包括高可用性、丰富的应用程序开发工具包和高级调度。

编辑本段多重挑战

     伴随着各种随身设备、物联网和云计算云存储等技术的发展,人和物的所有轨迹都可以被记录。在移动互联网的核心网络节点是人,不再是网页。数据大爆炸下,怎样挖掘这些数据,也面临着技术与商业的双重挑战。

     首先,如何将数据信息与产品和人相结合,达到产品或服务优化是大数据商业模式延展上的挑战之一。张夏天认为,大数据对算法和计算平台的挑战加大,计算开销大增。总量上升,质量下降,这是大数据带来的重大挑战。

     其次,巧妇难为无米之炊,大数据的关键还是在于谁先拥有数据。多盟联合创始人兼COO张鹤表示,智能手机是根据用户营销而不是根据媒体营销。移动互联网提供了新的数据来源,数据分析能够针对每一位用户的手机信息做精准匹配,但目前大数据时代还没有真正来临。多盟虽然每天可覆盖1800万用户,但对用户行为的描述,还需要更大的数据量。

     从市场角度来看,大数据还面临其他因素的挑战。架势无线CEO叶忻直言,大数据很有前景,但是市场中数据噪音太多,会导致数据价值大大降低。以无线营销为例,大量的刷量以及水军好评差评等数据已经严重干扰了数据的准确性,这实际上大大降低了数据的价值。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多