分享

Hadoop各个模块系统的大概架构介绍

 niefeng2011 2014-01-13
Hadoop Ecosystem Map     Hadoop的“生态圈”

  Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。

  • 这一切,都起源自Web数据爆炸时代的来临
  • 数据抓取系统 - Nutch
  • 海量数据怎么存,当然是用分布式文件系统 - HDFS
  • 数据怎么用呢,分析,处理
  • MapReduce框架,让你编写代码来实现对大数据的分析工作
  • 非结构化数据(日志)收集处理 - fuse,webdav, chukwa, flume, Scribe
  • 数据导入到HDFS中,至此RDBSM也可以加入HDFS的狂欢了     - Hiho, sqoop
  • MapReduce太麻烦,好吧,让你用熟悉的方式来操作Hadoop里的数据     – Pig, Hive, Jaql
  • 让你的数据可见 - drilldown, Intellicus用高级语言管理你的任务流 – oozie, Cascading
  • Hadoop当然也有自己的监控管理工具 – Hue, karmasphere, eclipse plugin, cacti, ganglia
  • 数据序列化处理与任务调度 – Avro, Zookeeper
  • 更多构建在Hadoop上层的服务 – Mahout, Elastic map Reduce
  • OLTP存储系统 – Hbase

HDFS的架构:

主从结构:
主节点,只有一个:namenode
从节点,有很多个:datanodes

namenode负责:
接受用户操作请求(如创建文件夹,删除移动遍历等)
维护文件系统的目录结构
管理文件与block之间关系,block与datanode之间的关系
datanode负责
存储文件
文件被分成block存储在磁盘上
为保证数据安全,文件会有多个副本


MapReduce的架构

主从架构
主节点,只有一个:JobTracker
从节点,有很多个:TaskTrackers
JobTraker负责:
接受客户提交的计算任务
把计算任务分给TaskTrackers执行
监控TaskTracker的执行情况 
TaskTracker负责:
执行JobTracker分配的计算任务

Hadoop集群的物理分布
 
单节点物理结构

Master node运行的是:JobTracker,NameNode;
Slave node运行的是:TaskTracker,DataNode;



Hadoop部署方式
本地模式
伪分布模式
集群模式

(伪分布部署用来学习测试)安装前准备软件
VitualVox
rhel-server-6.3-i386-dvd.iso
jdk-6u24-linux-xxx.bin
hadoop-1.1.2.tar.gz
  

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多