大数据分析理论和技术(1)
胡经国
大数据分析的六个最好工具
大数据分析是研究大量数据的过程中寻找模式相关性和其他有用信息的大数据技术可以帮助企业更好地适应变化,并且做出更加明智的决策。下面,简要介绍大数据分析的六个最好工具Hadoop(数据分布式处理软件框架
⑴、Hadoop概述
Hadoop是一个能够对大量数据进行分布式处理的软件框架。而且Hadoop还以一种可靠、高效、可伸缩的方式进行数据分布式处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护了多个工作数据副本,能够确保对Hadoop失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,因为它能够处理PB级千万亿字节数据。此外,由于Hadoop依赖于社区服务器,因而它的成本比较低,任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。
⑵、Hadoop的主要优点
Hadoop主要有以下几个优点:高可靠性
Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性
Hadoop是在可用的计算机集群之间分配数据并完成计算任务的这些集群可以方便地扩展到数以千计的节点中。高效性
由于Hadoop能够在节点之间动态地移动数据,并且保证各个节点的动态平衡,因而处理速度非常快。高容错性
Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。
此外,Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。HPCC(高性能计算与通信
⑴、HPCC概述
HPCCHighPerformanceComputingandCommunications)是“高性能计算与通信”。它是于1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与通信”的报告,也就是被称为“HPCC计划”的报告,美国总统科学战略项目其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而制定的计划该计划的实施将耗资百亿美元其主要目标是要达到:开发可扩展的计算系统及相关软件,以支持太字节级网络传输性能,开发千兆比特网络技术,扩展科研和教育机构与网络的连接能力。
⑵、HPCC项目主要组成
HPCC项目主要由五部分组成:、高性能计算机系统HPCS)
其内容有今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等、先进软件技术与算法ASTA)
其内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等、国家科研与教育网格NREN)
其内容有中接站及10亿位级传输的研究与开发、基本研究与人类资源BRHR)
其内容有基础研究、培训、教育及课程教材,通过奖励调查者开始的、长期的调查来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练和训练有素的人员的联营,提供必需的基础架构来支持这些调查和研究活动、信息基础结构技术和应用IITA)
其目的在于保证美国在先进信息技术开发方面的领先地位。、Storm
⑴、Storm概述
Storm是一个自由(免费)开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来
⑵、Storm的应用领域及优点
Storm有许多应用领域,包括实时分析、在线机器学习、不停顿的计算、分布式RPC远程调用协议,是一种通过网络从远程计算机程序上请求服务的协议、ETLExtraction-Transformation-Loading,数据的抽取、转换和加载等等。Storm的处理速度惊人;经测试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展和容错,并且很容易设置和操作。、ApacheDrillApache开源项目)
为了帮助企业用户寻找更加有效地加快Hadoop数据查询的方法,Apache软件基金会推出了一项名为Drill”的开源项目。通过开发ApacheDrill,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。ApacheDrill实现了Google''sDremel据介绍,Drill已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。
该项目将会创建出开源版本的谷歌DremelHadoop工具谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速。而Drill将有助于Hadoop用户实现更快查询海量数据集的目的。Drill项目其实也是从谷歌的Dremel项目中获得灵感该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在AndroidMarket上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。、RapidMiner数据挖掘解决方案
⑴、RapidMiner概述
RapidMiner是世界领先的数据挖掘解决方案在非常大的程度上先进技术。数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。功能和特点
免费提供数据挖掘技术和库
100%用Java代码可运行在操作系统上
数据挖掘过程简单强大和直观
内部XML可扩展标记语言保证了用标准化的格式来表示交换数据挖掘过程
可以用简单脚本语言自动进行大规模进程
多层次的数据视图,确保有效和透明的数据
图形用户界面的互动原型
命令行批处理模式自动大规模应用
JavaAPI(应用编程接口
简单的插件和推广机制
强大的可视化引擎,许多尖端的高维数据的可视化建模、PentahoBIPentaho商务智能概述
Pentaho是世界上最流行的开源商务智能软件。它以工作流为核心的,强调面向解决方案而非工具组件。它是基于Java平台的商务智能(BusinessIntelligence,BI)套件;之所以它说是套件,是因为它包括了一个WebServer平台和几个工具软件(报表、分析、图表、数据集成、数据挖掘等),可以说包括了商务智能的方方面面。它整合了多个开源项目,其目标是和传统的BI相抗衡。它偏向于与业务流程相结合的BI解决方案,侧重于大中型企业应用。它允许商业分析人员或开发人员创建报表、仪表盘、分析模型、商业规则和BI流程。
目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过多项有关技术集成到Pentaho平台中来。Pentaho的发行主要以PentahoSDK(PentahoSoftwareDevelopmentKit,Pentaho软件开发工具包)的形式进行。
⑵、概述
PentahoBIBusinessIntelligence,Pentaho商务智能平台不同于传统的BI产品它是一个以流程为中心的面向解决方案Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,以方便商务智能应用的开发。它的出现,使得一系列面向商务智能的独立产品能够集成在一起,构成一项复杂的、完整的商务智能解决方案。
PentahoBI平台和PentahoOpenBI套件的核心架构和基础是以流程为中心的,因为其中枢控制器是一个工作流引擎。该工作流引擎使用流程定义来定义在BI平台上执行的商务智能流程。流程可以很容易被定制,也可以添加新的流程。BI平台包含组件和报表,用以分析这些流程的性能。
⑶、Pentaho软件开发工具包的组成
Pentaho软件开发工具包共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的Pentaho网络服务器。其中:
①、Pentaho平台
Pentaho平台是PentahoSDK最主要的部分,囊括了Pentaho平台源代码的主体
Pentaho示例数据库为Pentaho平台的正常运行提供的数据服务,包括配置信息、Solution相关的信息等等。它对于Pentaho平台来说不是必须的,通过配置是可以用其它数据库服务取代的
可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例,它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行
Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商务智能解决方案。Eclipse是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件、组件构建开发环境。
4
|
|