Hadoop是什么？一句话理解

爱吃鱼的俊懒猫 2019-05-28

展开全文

Hadoop（MapReduce&HDFS）

1.学习目的（前言）

　　在从业了六年IT生涯里，做个实施顾问、业务顾问、BA需求分析师、项目经理，现在重新定位自己，在新公司做起了开发顾问，虽然经历过很多转折、跨度也有点大。但是抓住了机会，开始接触大数据行业了。虽然目前工作中的都是使用Hive SQL进行开发，没有涉及太多真正大数据的东西，但是觉得学习大数据还是很有必要，所以利用项目的空余时间对Hadoop进行了学习整理，内容可能对于现在的Hadoop来说已经有点过时了，但是我觉得老知识还是根基，于是便有了以下的文章，用于以后自己备忘和要学习Hadoop的小伙伴一起学习进步。

2.Hadoop核心思想

　　Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个平台，其核心部件是HDFS与MapReduce

　　HDFS是一个分布式文件系统：传统文件系统的硬盘寻址慢，通过引入存放文件信息的服务器Namenode和实际存放数据的服务器Datanode进行串接。对数据系统进行分布式储存读取。

　　MapReduce是一个计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算\Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。

3.HDFS文件系统和MapReduce计算框架在Hadoop生态圈中的应用

　　HDFS负责Hadoop生态圈的数据存取工作

　　MapReduce负责Hadoop生态圈的数据运算工作

　　Hadoop生态圈使用HDFS文件系统进行存取数据，数据被分散的保存在集群的各个服务器上，在计算数据时使用MapReduce结合HDFS进行逻辑运算取出数据。

4.Master/Slave的架构理念

　　Hadoop使用（Master/Slave）主从架构进行分布式储存和分布式计算。Master负责分配和管理任务，Slave负责实际执行任务。

　　MapReduce中装载有JobTracker的服务器负责进行Master任务，装载有TaskTracker的服务器负责进行Slave任务。

　　HDFS中装载有Namenode的服务器负责进行Master任务，装载有Datanode的服务器负责进行Slave任务。

5.HDFS&MapReduce的设计思路

　　HDFS：

　　　　将文件进行切块处理，再通过文件信息服务器Namenode存放切块的文件信息存放地址，实际存放数据的服务器Datanode存在切块后的数据。

　　　　系统默认：每个片块大小为64M，以保证寻址速度；数据会写入3个Datanode中，以保证更高的容错性；

　　　　HDFS还设计了Secondary Namenode来更新Namenode，以避免日志文件过大

　　　　HDFS Client帮助Namenode对写入读取数据进行预处理，进行文件的分块与发送读取操作。Namenode负责为数据任务寻址

　　MapReduce：

　　　　通过JobClient生成任务运行文件，并在JobTracker进行调度指派TaskTracker完成任务。

　　　　JobTracker分为把任务文件进行分解并派送到TaskTracker的程序JobinProgress和执行调度器的TaskScheduler

　　　　JobinProgress把作业分解成Map计算和Reduce计算并放置到TaskTracker服务器中

6.HDFS&MapReduce组件介绍

　　HDFS：

　　　　Namenode(Master)：管理着每个文件中各个块所在的数据节点的位置信息

　　　　Namespace image:记录每个文件的存在位置信息

　　　　Edit log:记录每个文件的位置移动信息

　　　　Datanode(Slave)：记录着服务器内所储存的数据块的列表

　　　　Secondary Namenode：更新并备份Namenode

　　　　HDFS Client：进行文件的分块与文件的发送读取

　　MapReduce：

　　　　JobClient:用于把用户的作业任务生成Job的运行包，并存放到HDFS中。

　　　　JobinProgress：把Job运行包分解成MapTask和ReduceTask并存放于TaskTracker中

　　　　JobTracker(Master)：进行调度管理TaskTracker执行任务

　　　　TaskTracker(Slave)：执行分配下来的Map计算或Reduce计算任务

7.Hadoop运行机制

　　HDFS：

　　　　Namenode使用镜像文件(Namespace image)和操作日志文件(edit log)对数据进行记录。（保存在缓存和磁盘中）

　　　　Secondary Namenode进行更新时的操作：

　　　　　　1.在Namenode创建一个新的操作日志，将新的操作记录写入到新的操作日志中；

　　　　　　2.将Namenode的镜像文件和操作日志拷贝到Secondary Namenode中；

　　　　　　3.在Secondary Namenode中读取镜像文件到内存，并执行日志文件中的所有操作，生产新的镜像文件；

　　　　　　4.把Secondary Namenode中创建的镜像文件拷贝到Namenode中；

　　　　　　5.Namenode中使用新的镜像文件和操作日志替代原来的文件；

　　存数据：

　　　　　　1.HDFS Client对文件分块并向Namenode发送写数据请求

　　　　　　2.Namenode把block信息记录下来，并返回可写入的Datanode

　　　　　　3.HDFS Client向指定的Datanode传送数据

　　　　　　4.传送成功后，Datanode会向Namenode和HDFS Client发送成功通知

　　读数据：

　　　　　　1.HDFS Client从Namenode中获取文件块的位置

　　　　　　2.HDFS Client根据Namenode返回的文件信息去Datanode相关位置中读取

　　MapReduce：

　　　　通过JobClient把用户的作业任务转换成job.xml、job.jar、job.split，适合JobTracker执行的文件

　　　　　　1.job.xml文件记录了Job的详细配置信息

　　　　　　2.job.jar保存了用户定义的关于job的map、reduce操纵

　　　　　　3.job.split保存了job任务的切片信息

　　　　JobClient会为作业向JobTracker申请Jobid，并以Jobid命名把xml、jar、split文件放置进HDFS中

　　　　JobinProgress会把JobClient创建的Job拷贝到JobTracker本地文件系统，并创建JobStatus和Job的mapTask、reduceTask队列来跟踪Job的状态信息。

　　　　JobTracker默认执行一下调度法则

　　　　　　1.先进先出：集群内的资源统一进行使用，执行先进队列先执行的原则。

　　　　　　2.公平调度：按用户分配集群内的资源，每个用户只能在指定的资源内运行调度。

　　　　　　3.队列调度：可以设置多个队列，每个队列都可以进行置顶的资源调度

　　　　TaskTracker向JobTracker发送心跳报告及执行命令

8.MapReduce集群的配置

服务器　　　　守护进程　　　　　　　说明

server1 　　　namenode　　　　　　　　　 namenode节点

server2 　　　jobtracker 　　　　任务主节点

server3 　　　secondary namenode 　　　　secondary namenode

dserver1 　　datanode tasktracker　　　　数据节点

dserver2 　　datanode tasktracker　　　　数据节点

dsdrver3　　 datanode tasktracker 　　　　数据节点

后感：

　　在写这篇文章的时候，知识点不断在更新（ps:甚至大v们对同一个事情的理解也有不太一致的地方，再ps：上述文章内容完全是小粉的个人理解），甚至连文章架构也改了很多次。但是对于学习来说，我觉得这个是一件好事儿，建议也在学习hadoop的小伙伴也可以对自己的知识进行整理学习，有自己的理解。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：爱吃鱼的俊懒猫 > 《IT》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

爱吃鱼的俊懒猫

关注对话

TA的最新馆藏

为什么有的人可以说不爱就不爱了？
暗恋后，你会选择告白，还是沉默？
该如何面对一段关系的结束？
对于现代人来说，为什么结婚越来越难了？
明朝十六帝在位顺序表，及其生平简介，你了解吗？
朋友圈发了又删时你在想什么？

喜欢该文的人也喜欢更多

热门阅读换一换