配色: 字号:
进一步认识大数据(5)
2022-01-30 | 阅:  转:  |  分享 
  
进一步认识大数据(5)

胡经国





有关文献对关于大数据的几个重要判断和观点进行了论述。为了进一步认识大数据,现将其介绍如下,供读者参考。大数据思维源于数据挖掘又高于数据挖掘

大数据思维源于数据挖掘(DataMining)又高于数据挖掘。数据挖掘与大数据的关系。

数据挖掘借助计算机从海量数据中发现隐含的知识和规律,是一门融合了计算机、统计等科技知识的交叉学科其核心的人工智能、机器学习、模式识别等理论,在上世纪90年代推行知识管理时已经取得显著进展。从本质上看,大数据带来的思维变革以及一些数据驱动类的商业智能(BusinessIntelligence)模式创新,都是数据挖掘理论的延伸,因此将大数据带来的思维大变革表达为数据挖掘相对于数理统计带来的思维变革或许更加准确。

例如,因果关系是数理统计中的重要内容,基于完善的数学理论,其代表是回归模型;而相关关系则是数据挖掘中的重要内容,基于强大的机器运算能力,其代表是神经网络、决策树算法这就使得人们不需要了解背后复杂的因果逻辑也可以获得良好的分析和预测结果。

但是,数据挖掘通常面向结构化数据;大数据则还涉及数据的采集、提取、转化、存储等,且必然要面对非结构化数据。大数据突破主要来自技术革新

大数据的突破主要来自技术革新。这表现在对多样(Variety)、快速(Velocity)等特点的适应和运用上。

⑴、存储数据从结构化向半结构化和非结构化拓展

存储数据从结构化向半结构化和非结构化拓展如基于Web异构环境下的网页、文档、报表、多媒体等导致了一批基于非结构化数据的专有挖掘算法的产生和发展。

⑵、数据库从关系型向非关系型和分布式拓展

数据库从关系型向非关系型和分布式拓展关系型数据库是以行和列的形式组织起来的结构化数据表,如Excel表格缺点存储容量小、数据扩展性和多样性差而新的非关系型、分布式数据库可以弥补上述不足。

⑶、数据处理从静态向实时交互拓展

数据处理从静态向实时交互拓展新的大规模分布式并行数据处理技术能够实时处理社交媒体和物联网应用产生的大量交互数据,能有效应对大数据的海量和多样特点带来的复杂度和时效性要求。技术革新促成价值的实现

技术革新直接促成了价值(Value)的实现。得益于上述技术,数据挖掘理论获得了呈几何倍数增长的数据量和处理能力,原本很多无法验证的设想和方法得以实现。

例如,传统的商业智能(BI)分析有一个集中步骤,即在分析前需要对大量数据进行抽取和集中化,形成一个完整的数据仓库这个步骤往往成为传统的商业智能分析全过程的能力瓶颈。而基于大数据分布式技术的商业智能分析无需集中,大大提升了敏捷度和智能水平从而推动机器学习、语义处理等领域发生了重大突破,直接促成了Mahout机器学习算法集、Siri语音助手等一批商用化产品的问世。价值实现潜力的主要体现

大数据价值实现潜力主要体现在数据开放战略和数据驱动范式上。

在战略层面,数据处理从封闭、断点、静态向开放、海量、实时的转变,引发了社区、众包、网格等新业态和新模式蓬勃发展在此基础上将推动机构数据开放和公众共享运动的兴起。

在研究范式层面,科学研究出现从推理演绎驱动向数据驱动拓展的苗头如生物基因与健康等研发密集型产业开始向数据研究科学拓展许多传统的科学研究如历史、文学等也开始尝试运用数据分析技术。

但上述两个层面重大变革目前尚未规模化实现大数据现有技术水平的主要受益者仍然是互联网产业和各类基于互联网的商业模式。在信息基础设施普及率和社会开放性以及与网络智能交互技术的结合度没有达到一定能级的时后,大数据的应用是有限的,达不到面向社会的无所不能。大数据价值实现的推动者和直接受益者

互联网企业是当前大数据价值实现的推动者和直接受益者。由于互联网的发展在带动大数据概念兴起的过程中起到了重要作用,因而多家知名互联网企业顺势掌握了大数据相关核心技术,推出了有关大数据的关键产品和服务。例如

谷歌公司研发了以下三项大数据核心技术,即文件系统(GoogleFileSystem)、处理算法(MapReduce)和分布式数据库(BigTable)打造了全球大数据开发的主流框架和范式。雅虎基于谷歌的算法思想,改进了Hadoop开源框架,向广大企业和创业者开放,推动了产业生态系统不断壮大亚马逊、脸谱、推特等企业在此框架基础上开发各类功能性工具,并以数据为消费产品改善用户体验微软、IBM等传统IT企业在产业链上更多关注下游应用,为各行业客户提供系统解决方案。

这些企业不仅可以从大数据新技术产品和服务中获得了可观的收入,而且还从占有的数据资源中获利。大数据有助于进一步明晰云计算的价值

大数据有助于进一步明晰云计算的价值。在云计算概念刚刚被提出来的几年里,许多政企行业用户对其应用价值一直存在疑虑。而随着大数据的异军突起,云计算的价值则又一次受到公众的高度关注。

由于云计算帮助解决了大数据无法进行抓取、管理和处理的问题,给予了大数据不同以往的计算和存储能力,使得度数据处理结果的获取更快速、分析更智慧。可以预见,在未来云计算将成为大数据应用分析最活跃的舞台。而大数据则为云计算数据中心的大规模和分布式的计算能力提供了应用的空间,解决了传统数据中心无法解决的问题,从而进一步明晰了云计算的价值。

大数据支持者的一个重要论断是:基于全量数据,大数据分析的准确性将会超越传统数理统计,因果关系将为相关关系所取代。而事实并非如此乐观

一方面,经历年发展的传统数理统计还没有过时,仍然在经济社会各个方面发挥着重要作用。例如,抽样是一门古老而且成熟的统计方法如果目标明确、方法科学,其在绝大多数情况下得出的结论的正确性并不逊于全量数据。从客观上看,全量数据的价值更多地体现在一些传统数理统计基本假设可能失效的情况下,此时需要依靠全量数据寻求规律。

另一方面,与全量数据伴生的噪音有时会影响分析结果的精准度。例如,被誉为大数据杰出案例的谷歌流感趋势近期陷入低谷,错误率高达90%以上,不能预测甲型H1N1等重大疫情。它的核心逻辑是:搜索去医院看流感的人数与实际患病的人数之间存在的相关性而在事实上,即便是去医院看流感病的人,其中都有80%90%实际上没有患流感表面的网络搜索行为与可靠的信息来源之间还存在较大差距,还需要一个去噪过程。很多专家认为,就目前而言,相关关系还不足以替代因果关系,而只是作为其补充。

1、大数据对

2、大数据是②、性能提升;③、资源消耗减少;④、定义更加清晰,应用更加灵活。





2016年5月30日编写于重庆

2022年1月30日修改于重庆

8







献花(0)
+1
(本文系胡经国图书...原创)