部署Hadoop时的注意事项（基础篇）

昵称10248211 2012-06-21

展开全文

部署Hadoop时的注意事项（基础篇）

2010-02-13 07:163900人阅读评论(0)收藏举报

本作品采用知识共享署名-非商业性使用-相同方式共享 2.5 中国大陆许可协议进行许可。

最近云计算在中国极为火爆，但看了云计算的那些云山雾罩的概念后，实在让人望而却步。还好不是所有的东西都摸不着头脑，Hadoop就是实实在在的技术之一。不才最近仔细品读了Hadoop的基础资料，特别是如何部署Hadoop的相关技术文档，发现其中有许多不为人注意的东西，在此整理一下。
关于如何部署Hadoop，网上可以搜到很多文章，在这里不打算凑这个热闹。
Hadoop 开发者入门专刊(pdf)是目前比较权威的文档；
有什么与Hadoop相关的技术问题也可以到专业的Hadoop技术论坛上去讨论。

Hadoop集群的组成成份

Hadoop的核心功能有两个：HDFS与MapReduce。与HDFS相关的服务有NameNode、SecondaryNameNode 及DataNode；与MapReduce相关的服务有JobTracker 和TaskTracker两种。

Hadoop集群中有两种角色：master与slave，master又分为主master与次master。其中：

主master同时提供NameNode、SecondaryNameNode 及JobTracker 三种服务；
次master只提供SecondaryNameNode 服务；
所有slave可以提供DateNode或TaskTracker 两种服务。

Hadoop有三种集群方式可以选择：

Local (Standalone) Mode（无集群模式）
Pseudo-Distributed Mode（单机集群模式）
Fully-Distributed Mode（多机集群模式）

一个Hadoop集群由多台电脑组成，每台电脑可作为一种或多种角色存在。
当使用Pseudo-Distributed Mode创建Hadoop集群时，一台电脑同时完成主master和slave两种角色的任务。在Fully-Distributed Mode下，如果只有一台电脑作为master，则此电脑完成主master的任务；如果有多台电脑作为master存在，则第一台电脑完成主master的任务，其它电脑完成次master的任务。

无密码SSH登录

启动Hadoop的方式是在主master上调用下面的命令：

$HADOOP_HOME /bin/start-all.sh

此调用过程中，Hadoop依次启动以下服务：

在主master上启动NameNode服务；
在主master上启动SecondaryNameNode服务；
在次master上启动SecondaryNameNode服务；
在所有slave上启动DataNode 服务；
在主master上启动JobTracker服务；
在所有slave上的TaskTracker服务。

在此需要注意以下几点：

启动NameNode 与JobTracker 服务不需要SSH授权；
需要通过SSH登录之后才能启动SecondaryNameNode、DataNode 以及TaskTracker服务，因此：
1. 因为需要启动SencondaryNameNode 服务，所以要为主master提供SSH授权；
2. 因为需要启动SencoddaryNameNode 服务，所以要为所有的次master提供SSH授权；
3. 因为需要启动DataNode和TaskTracker 服务，所以要为所有的slave提供SSH授权。

总而言之，要为Hadoop集群中的所有计算机提供SSH授权。

为什么要提供无密码SSH登录方式呢？为的是图省事儿。试想在启动 Hadoop集群过程中，要手动输入每一台电脑的SSH密码将是一件多么烦人的事！SSH授权的方法在这里不做详细的描述。无密码SSH登录技术也是相对成熟的技术。但有一个环节需要注意，那就是文件的访问权限问题。表现为：