在这春节期间,大家都见证了全球最大的“人类迁移”——车流、物流、人流,它们流淌的同时也是数据,是商机。而大数据,就是这样一种需要借助专有平台实现价值提炼帮助决策分析的海量数据集。鉴于大数据在云计算、移动、社交等多个发展趋势中都具有普遍性和重要性,本文将为广大读者介绍有关大数据的基本内容,以期帮助更多人了解大数据,并从中挖掘更多商机活跃市场。 另类“V字仇杀队”
大数据是多维的,而且极具复杂性。大数据带来的价值包括但不限于:数据的组织和管理,基础架构,决策支持和自动化界面和分析。随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限性被打破,企业愈发需要有效的信息治理以确保其真实性及安全性。 Volume——数据体量巨大。从TB级别,增长到PB级别。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=1024TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=1024PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。 Value——价值密度低。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限性被打破,企业愈发需要有效的信息治理以确保其真实性及安全性。 大数据对于每个人来说都是机遇和挑战并存。在大数据科学、网络日志、RFID(无线射频识别技术)、传感网络、社交网络、社交数据、网络文档、互联网搜索、呼叫中心、天文学、气象学、地理学 、生物学和其他数据庞大的学术性领域和民用、军用、视频、电子商务等等,都有着广泛的应用。
·因此,真正需要采集并处理的数据仅为传感器数据中的0.001%。整个LHC实验室的数据年增长为25PB(不考虑数据备份)。 商业领域 应用开发 从这里我们不难看出,大数据在各个行业和领域,由于其面临的应用和业务不同而产生不同的挑战或者机遇,但无论怎么说,大数据都是一种趋势,一种会在短期内带来伤痛的机遇。也正是因为 如此,我们也还需要特别了解,大数据目前的一些解决方案和成功的应用案例。 相比之下,人们更容易看懂Sandy Bridge、Ivy Bridge等处理器架构和USB 3.0、雷电接口等技术规范,而大数据领域的解决方案和产品,由于其涉及规模较为庞杂,而成为了很多人并不熟知的一个新生事物。 大数据需要有不同于传统的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术 ,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台 ,互联网,和可扩展的存储系统。 英特尔:作为与Linux具有一样都具有革命性意义的Hadoop,英特尔还推出了基于该平台的发行版(包括免费发行版),以帮助用户更轻松地构建架构和使用分布式计算平台,开发和处理海量数据。
在英特尔所提出的大数据方案之中,至强处理器将为大数据分析提供原动力。英特尔还展示了其即将发行的Hadoop发行版——Intel Hadoop Manager 2.0。英特尔的Hadoop发行版着重对英特尔平台上的Hadoop进行了优化,企业可即时实施,安装、配置都非常简单。 微软:为帮助企业快速采用其大数据解决方案,微软将在 Microsoft Windows Azure平台上提供基于云端的Hadoop服务,同时在 Windows Server 上提供基于本地的 Hadoop 版本。 Hadoop 的丰富洞察可以与 Microsoft Business Intelligence (BI) 平台无缝结合,使客户能够借助Office和SharePoint以及公用的数据和服务来丰富他们的模型。
EMC:Greenplum统一分析平台(UAP)结合Greenplum DB 和Greenplum Hadoop为企业构建高效处理结构化,半结构化,非结构化数据的大数据分析平台。并且客户可 以以此平台为基础利用Greenplum行业和数学统计方面 的专家,充分挖掘自身数据价值,实现数据资产从成本 中心到利润中心的转变,以数据驱动业务。 甲骨文:提供了大数据软硬一体优化集成解决方案,其行业解决方案包括移动应用用户行为统计分析、基于日志和访问内容的用户画像、机顶盒用户使用习惯和精准营销、语义分析和搜索引擎实时处理、海量指纹识别以及人脸识别查询系统、分布式大数据存储和管理系统、海量历史数据分析平台、基于互联网的舆情监控系统等。Exadata就是一个预配置的软硬件结合体,可提供高性能的数据读写操作。 IBM:IBM 提供了全面的大数据解决方案,InfoSphere大数据分析平台包括BigInsights和 Streams,Streams采用内存计算方式分析实时数据,可以动态地分析大规模的结构化和非结构化数据。BigInsights基于Hadoop,增加了文本分析、统计决策工具,同时在可靠性、安全性、易用性、管理性方面提供了工具,并且可与DB2、Netezza等集成。 SAP:和甲骨文Exadata类似,SAP提供了一个高性能的数据查询功能,用户可以直接对大量实时业务数据进行查询和分析的软硬一体化解决方案HANA。 “信息将成为‘二十一世纪的石油’。”(Gartner,2010年)“数据正在成为商业的新型原材料:经济投入几乎相当于资本与劳动力。”(援引《经济学家》,2010年)。这些,无不说明大数据带来的巨大商机和潜在价值。在本文,主要给读者介绍大数据带来的两方面益处:更智能;更富有。
大数据成智能手段 大数据成致富捷径 相比传统的致富资本——原材料、资金等等,它们一般都具有排他性,但数据却能够很容易地实现共享,并且通过共享实现更大的价值。此外,此数据和彼数据如果能有机地结合到一起,可能就会产生新的信息和知识,并且实现大幅增值。麦肯锡的报告就曾经指出:“已经有越来越多令人信服的证据表明:大数据将成为竞争的关键性基础,并成为下一波生产率提高、创新和为消费者创造价值的支柱”。 可以预见,基于知识的竞争,将集中表现为基于数据的竞争。而这种数据竞争,将成为经济发展的必然。随着全球竞争的不断深化,企业的地理优势也将淡化,各种国家和地区性的保护措施也将逐步取消,一项专利很快会被模仿、复制、推广,创新将越来越艰难。但在除去这些要素之外,还有一点可以构成企业竞争的基础,那就是以“低成本、高效率”的方式来开展公司的业务。这种竞争,要求公司制定流线型的商业过程,各个过程之间必须无缝隙、无摩擦地对接,并保证每一个商业决策明智、正确,在竞争的过程中不犯错误。(引自:美国信息经济领域的著名教授托马斯·达文波特) 编后语: 本文主要围绕大数据的特点、行业应用和面临的挑战、相应解决方案和未来潜在价值这几个最为重要的领域展开论述,由于大数据这个话题本身很“大”很宽泛,也不可能面面俱到,因此主要在于通过这些内容的讲解,给广大网民和读者提供普及性的分享。 另外一个特别值得关注的事实是,大数据时代已经真真切切的来了,它已经存在我们的现实生活中,未来也将会在个人、企业、政府、教育、科研和军事等各种领域全面展开普及应用。
|
|