Hadoop各个模块系统的大概架构介绍

niefeng2011 2014-01-13

展开全文

Hadoop Ecosystem Map Hadoop的“生态圈”

Hadoop生态系统的图谱，详细的列举了在Hadoop这个生态系统中出现的各种数据工具。

这一切，都起源自Web数据爆炸时代的来临
数据抓取系统－ Nutch
海量数据怎么存，当然是用分布式文件系统－ HDFS
数据怎么用呢，分析，处理
MapReduce框架，让你编写代码来实现对大数据的分析工作
非结构化数据（日志）收集处理－ fuse,webdav, chukwa, flume, Scribe
数据导入到HDFS中，至此RDBSM也可以加入HDFS的狂欢了－ Hiho, sqoop
MapReduce太麻烦，好吧，让你用熟悉的方式来操作Hadoop里的数据 – Pig, Hive, Jaql
让你的数据可见－ drilldown, Intellicus用高级语言管理你的任务流 – oozie, Cascading
Hadoop当然也有自己的监控管理工具 – Hue, karmasphere, eclipse plugin, cacti, ganglia
数据序列化处理与任务调度 – Avro, Zookeeper
更多构建在Hadoop上层的服务 – Mahout, Elastic map Reduce
OLTP存储系统 – Hbase

HDFS的架构：

主从结构：

主节点，只有一个：namenode

从节点，有很多个：datanodes

namenode负责：

接受用户操作请求（如创建文件夹，删除移动遍历等）

维护文件系统的目录结构

管理文件与block之间关系，block与datanode之间的关系

datanode负责

存储文件

文件被分成block存储在磁盘上

为保证数据安全，文件会有多个副本

MapReduce的架构

主从架构

主节点，只有一个：JobTracker

从节点，有很多个：TaskTrackers

JobTraker负责：

接受客户提交的计算任务

把计算任务分给TaskTrackers执行

监控TaskTracker的执行情况

TaskTracker负责：

执行JobTracker分配的计算任务

Hadoop集群的物理分布

单节点物理结构

Master node运行的是：JobTracker,NameNode;

Slave node运行的是：TaskTracker,DataNode;

Hadoop部署方式

本地模式

伪分布模式

集群模式

(伪分布部署用来学习测试)安装前准备软件

VitualVox

rhel-server-6.3-i386-dvd.iso

jdk-6u24-linux-xxx.bin

hadoop-1.1.2.tar.gz

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： niefeng2011 > 《个人笔记》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

niefeng2011

关注对话

TA的最新馆藏

Java中事务的处理(不错)
IntelliJ IDEA 14.x 创建工作空间与多个Java Web项目
查看一台服务器上面哪些服务及端口
[转] Lucene常用的Analyzer功能概述以及自定义Analyzer
linux下tomcat无法访问问题(换一种说法：无法访问8080端口)
用eclipse创建java web工程

喜欢该文的人也喜欢更多

热门阅读换一换