配色: 字号:
大数据
2016-09-30 | 阅:  转:  |  分享 
  
大数据概述大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决
策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》
中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、V
elocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。提出者http://baike.b
aidu.com/edit/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356941维克托·迈尔-舍恩伯格及肯尼斯·
库克耶提出时间2008年8月中旬定义对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义。“大数据”是需要新处
理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模
大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型
和价值密度低四大特征。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数
据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计
算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布
式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。随着云时代的来临,大数据(Bigdata)也吸引了
越来越多的关注。分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载
到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样
的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包
括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。最小的基本单位是b
it,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024
(2的十次方)来计算:1Byte=8bit1KB=1,024Bytes=8192bit1MB=1,024
KB=1,048,576Bytes1GB=1,024MB=1,048,576KB1TB=1,024G
B=1,048,576MB1PB=1,024TB=1,048,576GB1EB=1,024PB=1
,048,576TB1ZB=1,024EB=1,048,576PB1YB=1,024ZB=1,048,
576EB1BB=1,024YB=1,048,576ZB1NB=1,024BB=1,048,576Y
B1DB=1,024NB=1,048,576BB全称:1Bit(比特)=BinaryDigit8Bits=
1Byte(字节)1,000Bytes=1Kilobyte1,000Kilobytes=1Megabyte1,00
0Megabytes=1Gigabyte1,000Gigabytes=1Terabyte1,000Terabyte
s=1Petabyte1,000Petabytes=1Exabyte1,000Exabytes=1Zettab
yte1,000Zettabytes=1Yottabyte1,000Yottabytes=1Brontobyte1,
000Brontobytes=1Geopbyte特征容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;种
类(Variety):数据类型的多样性;速度(Velocity):指获得数据的速度;可变性(Variability):妨碍了处理和
有效地管理数据的过程。真实性(Veracity):数据的质量复杂性(Complexity):数据量巨大,来源多渠道价值(value
):合理运用大数据,以低成本创造高价值意义现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来
越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Da
taTechnology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无
烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比
数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。大数据的价值体现在以下几个方面:1)对大量消费者提供产品或
服务的企业可以利用大数据进行精准营销2)做小而美模式的中小微企业可以利用大数据做服务转型3)面临互联网压力之下必须转型的传统企
业需要与时俱进充分利用大数据的价值不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑
不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决
,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、
覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智
的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:1)及时解析故障、问题和缺陷的根源,每年
可能为企业节省数十亿美元。2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。3)分析所有SKU,以利润最大化为目标来定价和清理库
存。4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。5)从大量客户中快速识别出金牌客户。6)使用点击流分析和数据挖掘来规避
欺诈行为。结构大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕
的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。其次,
想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播
的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展
趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分
别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。第三层面是实践,实践是大数
据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将
实现的蓝图。应用洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。google流感趋势(GoogleFluTrends
)利用搜索关键词预测禽流感的散布。统计学家内特.西尔弗(NateSilver)利用大数据预测2012美国选举结果。麻省理工学院利
用手机定位数据和交通数据建立城市规划。梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进
行实时调价。医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来
做大数据分析。趋势趋势一:数据的资源化何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,
企业必须要提前制定大数据营销战略计划,抢占市场先机。趋势二:与云计算的深度结合大数据离不开云处理,云处理为大数据提供了弹性可拓展的
基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物
联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。趋势三:科学理论的突破随着大数据的快速发展
,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里
的很多算法和基础理论,实现科学技术上的突破。趋势四:数据科学和数据联盟的成立未来,数据科学将成为一门专门的学科,被越来越多的人所认
知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据
共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。趋势五:数据泄露泛滥未来几年数据泄露事件的增长率也许会达到1
00%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而
所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新
的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明
于事无补。趋势六:数据管理成为核心竞争力数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,
企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据
资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%
,数据资产的管理效果将直接影响企业的财务表现。趋势七:数据质量是BI(商业智能)成功的关键采用自助式商业智能工具进行大数据处理的企
业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消
除低质量数据并通过BI获得更佳决策。趋势八:数据生态系统复合化程度加强大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大
量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数
据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的
发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,
从而使得数据生态系统复合化程度逐渐增强。趋势六:数据管理成为核心竞争力数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业
核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产
,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据
资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。趋势七:数据质量是BI(商业智能)成功的关键采用自助式
商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数
据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。趋势八:数据生态系统复合化程度加强大数据的世界不只是一个单一的、
巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入
服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系
统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调
整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生
态体系、防控一体的安全保障体系;“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服
务平台、大数据交流合作平台和大数据创业创新平台;“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范提升工程、大
数据便民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信息基础设施提升工程、人才培养引进工程、大数据安全保障工程和大数据
区域试点统筹发展工程。此外,贵州省将计划通过综合试验区建设,探索大数据应用的创新模式,培育大数据交易新的做法,开展数据交易的市场试
点,鼓励产业链上下游之间的数据交换,规范数据资源的交易行为,促进形成新的业态。国家发展改革委有关专家表示,大数据综合试验区建设不是
简单的建产业园、建数据中心、建云平台等,而是要充分依托已有的设施资源,把现有的利用好,把新建的规划好,避免造成空间资源的浪费和损失
。探索大数据应用新的模式,围绕有数据、用数据、管数据,开展先行先试,更好地服务国家大数据发展战略。大数据的IT分析工具大数据概念应
用到IT操作工具产生的数据中,大数据可以使IT管理软件供应商解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒都在产生数据
。大数据非结构化或者结构数据都代表了‘所有用户的行为、服务级别、安全、风险、欺诈行为等更多操作’的绝对记录。大数据分析的产生旨在于
IT管理,企业可以将实时数据流分析和历史相关数据相结合,然后大数据分析并发现它们所需的模型。反过来,帮助预测和预防未来运行中断和性
能问题。进一步来讲,他们可以利用大数据了解使用模型以及地理趋势,进而加深大数据对重要用户的洞察力。他们也可以追踪和记录网络行为,
大数据轻松地识别业务影响;随着对服务利用的深刻理解加快利润增长;同时跨多系统收集数据发展IT服务目录。大数据分析的想法,尤其在IT
操作方面,大数据对于我们发明并没有什么作用,但是我们一直在其中。Gartner已经关注这个话题很多年了,基本上他们已经强调,如果I
T正在引进新鲜灵感,他们将会扔掉大数据老式方法开发一个新的IT操作分析平台。参考资料:javascript:void(0)如何使用
参考资料6个用好大数据的秘诀.中国大数据[引用日期2016-02-02].http://www.thebigdata.cn/YeJ
ieDongTai/29051.htmlhttp://www.thebigdata.cn/YeJieDongTai/29051.h
tml大数据时代还有隐私吗?.中国大数据[引用日期2016-02-02].http://www.thebigdata.cn/YeJ
ieDongTai/29000.htmlhttp://www.thebigdata.cn/YeJieDongTai/29000.h
tml大数据仍然离不开人的赋予.中国大数据[引用日期2016-1-4].http://www.thebigdata.cn/YeJi
eDongTai/28802.htmlhttp://www.thebigdata.cn/YeJieDongTai/28802.ht
ml大数据时代要有大数据思维.中国大数据[引用日期2015-11-3].http://www.thebigdata.cn/html
/c3/14416.htmlhttp://www.thebigdata.cn/html/c3/14416.html一个常见的大数据
术语表.中国机器人[引用日期2016-03-11].http://www.ro-bot.cn/XingYeDongTai/167.
htmlhttp://www.ro-bot.cn/XingYeDongTai/167.html大数据落地不可孤军作战.中国大数据[
引用日期2016-1-4].http://www.thebigdata.cn/YeJieDongTai/28776.htmlhtt
p://www.thebigdata.cn/YeJieDongTai/28776.html大数据有什么重要的作用.中国大数据[引用
日期2015-11-3].http://www.thebigdata.cn/YeJieDongTai/15592.htmlhttp
://www.thebigdata.cn/YeJieDongTai/15592.html大约两年前「大数据」这个名词慢慢出现,一开
始大家以为是个专有名词,只要专家懂就好了。两年过去,现在随时随地都可以听到,市面上也有不少书籍在讨论大数据。.中国大数据[引用日期
2015-11-3].http://www.thebigdata.cn/YeJieDongTai/15611.htmlhttp:/
/www.thebigdata.cn/YeJieDongTai/15611.html大数据与商业的未来.抓取.2015-12-04
[引用日期2016-07-20].http://www.zhuaqu.com/news50914.htmlhttp://www.z
huaqu.com/news50914.html大数据对企业重要性.中国大数据.2016-3-15[引用日期2016-01-4].
http://www.thebigdata.cn/JiShuBoKe/29379.htmlhttp://www.thebigdat
a.cn/JiShuBoKe/29379.html大数据究竟是什么?一篇文章让你认识并读懂大数据.中国大数据[引用日期2015-1
0-29].http://www.thebigdata.cn/YeJieDongTai/7180.htmlhttp://www.t
hebigdata.cn/YeJieDongTai/7180.htmlCIO必须知道的十个大数据案例.中国大数据[引用日期2015
-10-29].http://www.thebigdata.cn/YingYongAnLi/7835.htmlhttp://www
.thebigdata.cn/YingYongAnLi/7835.html大数据医疗的五大方向、15项应用详解.中国大数据[引用日
期2015-10-30].http://www.thebigdata.cn/YingYongAnLi/15499.htmlhttp
://www.thebigdata.cn/YingYongAnLi/15499.html大数据未来将呈现的八大发展趋势.中国大数据[引用日期2015-10-30].http://www.thebigdata.cn/YeJieDongTai/15605.htmlhttp://www.thebigdata.cn/YeJieDongTai/15605.html国务院印发行动纲要促进大数据加快发展.中国经济网.2015-09-6[引用日期2015-09-6].http://www.wanwuyun.com/pages/news/196.htmlhttp://www.wanwuyun.com/pages/news/196.html全国首个大数据综合试验区建设在黔启动.中国经济网.2015-09-20[引用日期2015-09-20].http://www.wanwuyun.com/pages/news/197.htmlhttp://www.wanwuyun.com/pages/news/197.htmlIT分析工具让大数据在数据中心中发光.TechTarget[引用日期2015-11-11].http://www.searchdatacenter.com.cn/showcontent_84444.htmhttp://www.searchdatacenter.com.cn/showcontent_84444.htm
献花(0)
+1
(本文系胡春潮个人...首藏)