配色: 字号:
大数据管理与治理(1)
2022-05-04 | 阅:  转:  |  分享 
  
大数据管理与治理(1)

胡经国



大数据管理与Hadoop

1、Hadoop概述

Hadoop是分布式处理框架,是一项开源技术,是当今与大数据应用最为息息相关的数据管理平台。主要由Yahoo创建于2006年部分基于由Google在一些技术论文中所阐述的思想互联网公司采用该技术并开始对其自身的发展贡献力量。在过去几年,Hadoop已经演变成一种有着基础设施组件和相关工具的复杂生态系统而且它被各家供应商打包在一起成为商业Hadoop发行版本。

对于高级分析活动来说,在集群服务器上运行的Hadoop为建立一个高性能低成本的大数据管理架构提供了途径。随着人们逐渐地意识到其能力的提升,Hadoop的应用蔓延到了其他行业,包括对混合有传统结构化数据和新型非结构化数据以及半结构化数据的应用程序的报告和分析。其中包括:网络点击流数据、在线广告信息、社交媒体数据、医疗记录以及来自制造设备的传感器数据和源于互联网设备的数据。

2、Hadoop核心组件

Hadoop包含了大量开源软件组件这些组件拥有用于计算、处理、管理和分析大量数据的核心模型,而这些数据则由各种各样的支撑技术所包围。这些核心组件包括:

⑴、HDFS

HDFS(HadoopDistributedFileSystem)Hadoop分布式文件系统它支持传统的分级目录和文件系统而传统的分级目录和文件系统则是将文件分布于Hadoop集群中的存储节点上例如DataNodes(数据节点。

⑵、MapReduce

MapReduce是可以对批量应用程序进行并行处理的编程模型和执行框架。

⑶、YARN

YARNYetAnotherResourceNegotiator)是负责管理任务调度。它为运行中的应用程序分配集群资源,并在可用资源出现争用时进行仲裁。它同时还对正在处理中任务的进展进行追踪和监控。

⑷、HadoopCommon

HadoopCommon是由不同组件使用的一组库和工具。

3、Hadoop的开发管理和应用

在Hadoop集群中,那些核心部分和其他软件模型是分层于计算和数据存储硬件节点集合之上的。这些节点通过高速内网连接以形成高性能并行分布式处理系统。

作为一个开源技术的集合,Hadoop并不受控于任何一个单独的供应商相反的是,它的开发是由ApacheSoftwareFoundation(Apache软件基金会)进行管理的。Apache为用户提供Hadoop使用许可基本上可以让用户免费无版税使用该软件。开发人员可以直接从Apache的网站下载并自行构建Hadoop环境。但是,由Hadoop供应商提供带有基本功能的预构建社区版本该版本同样可以免费下载并能在各种硬件平台上进行安装。同时还有市场商业版和企业版Hadoop发行版根据维护和支持服务的不同等级来打包软件。

在某些情况下,供应商也会基于Apache的技术提供性能和功能方面的增强例如,通过提供附加的软件工具来简化集群配置和管理或是与外部平台的数据整合。这些商业产品让各种规模的公司对Hadoop的接纳度越来越高。这是非常有价值的尤其是当商业公司供应商的支持服务团队可以启动一家公司Hadoop基础设施的设计和开发,并且能够引导工具的选择和高级功能的集成以快速部署高性能分析解决方案来满足新兴业务需求。

4、典型Hadoop软件栈组件

当你拿到一份商业版本的Hadoop时,你能从中真正获得什么呢除了核心组件,典型的Hadoop发布版本会包含但不限于以下内容:

⑴、替代数据处理和应用程序执行管理器

诸如Tez和Spark之类的替代数据处理和应用程序执行管理器它们可以在YARN之上运行或是与YARN并行以提供集群管理缓存数据管理以及其他改善处理性能的方法。

⑵、列式数据库管理系统

ApacheHBase是一款列式数据库管理系统它模仿的是运行在HDFS之上Google的BigTable项目。

⑶、SQL-on-Hadoop工具

诸如Hive,Impala,Stinger,Drill以及SparkSQL之类的SQL-on-Hadoop工具这些工具为直接查询存储在HDFS中的数据提供了与SQL标准不同程度的兼容性。

⑷、开发工具

诸如Pig之类的开发工具可以帮助开发人员构建MapReduce项目。

⑸、配置管理工具

诸如ZooKeeper或是Ambari之类的配置管理工具可以用来进行监控和管理。

⑹、分析环境

诸如Mahout之类的分析环境可以为机器学习数据挖掘和预测分析提供分析模型。

由于Hadoop是开源的,因此对于Hadoop发行版你无需付费。相反的是,供应商则售卖有不同水平服务协议SLAs)的年度支持订阅版本。虽然每家供应商都会对自家的附加组件进行提升,如此一来也作为Hadoop发布版的一部分为Hadoop社区做出了贡献所有的供应商都会积极参与到ApacheHadoop社区中来。

5、Hadoop大数据管理环境的管理

在Hadoop系统之外获得所需性能需要一个熟悉IT专业的协调团队该团队致力于架构计划、设计、开发、测试和部署,以及运行中操作和维护方面的工作以确保获得最佳性能意识到这一点是非常重要的。对于这样的IT团队通常会有以下要求:

需求分析师基于运行于Hadoop环境中的应用程序类型来评估系统性能需求。

系统架构师评估性能需求并设计硬件配置。

系统工程师对Hadoop软件栈进行安装配置和调优。

应用程序开发人员设计并实现应用程序。

数据管理专家做数据整合创建数据布局并执行其他管理任务。

系统管理员进行操作管理和维护。

项目管理人员监督各级栈和应用程序开发工作的实现。

项目经理负责Hadoop环境和优先级应用程序开发和部署的实现。

6、Hadoop软件平台市场

从本质上讲,作为一个可行的大规模数据管理生态系统,Hadoop的演化已经创造了一个新的软件市场它正在转变商业智能和分析行业。这已经从两方面进行了扩展,即用户企业可以运行的分析应用程序以及可以作为这些应用程序一部分加以收集并进行分析的数据类型。在Hadoop中,该市场包括三个独立的专业供应商以及其他提供Hadoop发行版或功能的公司。

对那些提供Hadoop发行版本的供应商进行评估需要理解所供产品两个方面的异同。首先是技术本身:发行版中包含有哪些不同之处它们支持什么样的平台而且,最为重要的是,个体供应商集成了什么样的特定组件其次是服务和支持模型:对于每类订阅级别都提供什么样的支持和SLAs以及不同的订阅费用?







2







献花(0)
+1
(本文系胡经国图书...原创)