Hadoop安装教程

太极混元天尊 2018-04-12

展开全文

面向大数据，搜索引擎从入门到精通，Hadoop是一个由Apache基金会所开发的分布式集群基础架构，Hadoop安装教程小编亲测！！！

测试系统 centos7.4

下载安装包：https://mirrors.tuna./apache/此网站是所有开源软件下载地址

软件包版本

jdk-8u144-linux-x64.tar

zookeeper-3.4.10.tar

hadoop-2.6.5.tar

hbase-1.1.12-bin.tar

spark-2.2.0-bin-hadoop2.6

主机名和IP

192.168.2.131 master1

192.168.2.132 master2

192.168.2.133 master3

1.修改主机名：vi /etc/hostname 然后把HOSTNAME=JAVA资源社区！（全部机器）例如：HOSTNAME=JAVA资源社区,保存退出！重启reboot之后敲击命令：JAVA资源社区,看到名字是自己设置的主机名即为修改成功。

2.修改集群ip映射：vi/etc/hosts ,将所有机器IP以及主机名添加！

3.时间设置，date查看所有机器时间，如果时间差超过30秒，那么要将时间统一，最好统一时间差在10秒之内。设置时间：2018年 03月 19日星期一 13:24:23 CST

4.免密码登录：首先本机生成公钥和密钥，ssh-keygen -t rsa，然后连敲3下回车键，再进入到根目录下的/.ssh下，cd ~/.ssh/，进行本机无密码登cat ./id_rsa.pub>>authorized_keys,全部机器重复操作一遍。最后将master1节点的公钥拷贝到其他节点上面！我的是root用户,scp ~/.ssh/authorized_keys root@master1:~/.ssh/，

注意是其他的全部机器！拷贝完成之后输入命令ssh node1进行测试，第一次连接需要输入密码！如果第二次连接不需要密码即为免密码设置成功！全部机器检测一遍！

安装hadoop之前，需要安装zookeeper，因为分布式集群需要用到zookeeper。

1.下载安装包，讲述的是tar包安装，以.tar或者.tar.gz结尾的均为tar包。

2.上传并解压架包，目录自行选择！我的目录是/home，我的zookeeper版本是zookeeper-3.4.10.tar.gz

3.进入home目录，cd /home。解压tar包，tar -zxvf zookeeper-3.4.10.tar.gz.进入配置目录，cd /home/zookeeper/zookeeper-3.4.10/conf/,然后修改文件名，cp zoo_sample.cfg zoo.cfg,再编辑zoo.cfg,vi zoo.cfg,在文件的最后加上

只需要修改一下主机名，如：马化腾,许家印,邓高杰分别为主机名。修改第12行的路径，:set nu是显示行号！dataDir=/home/zookeeper/zookeeper-3.4.10/data，将=号后面的路径修改为自己的路径。

4.再进入到自己配置的路径下面，编辑文件，cd /home/zookeeper/zookeeper-3.4.10/data敲击命令vi myid,将你的zoo.cfg配置文件里面配置的server点后面的数字(1或2或3)写入进去。

注意：要对应你配置的相应的机器!例如：server.1=master1:2888:3888,那么你在slave1机器里面的myid里面就写入1,以此相对应！保存退出！

5.关闭防火墙或者在防火墙内将端口开放来！systemctl stop firewalld.service 是临时关闭防火墙，重启之后失效！建议关闭防火墙。

6.启动：/home/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start，启动之后，最好是按照你配置的server顺序启动，再等个5秒左右查看状态：/home/zookeeper/zookeeper-3.4.10/bin/zkServer.sh status，启动成功！

注意：一个zookeeper集群里面只会有一个leader，如果出现多个或者没有，就是没有启动成功，请检查配置和安装步骤！

7.安装hadoop,下载2.6.5的版本tar包，下载地址前面已给，上传并解压！进入配置目录：/home/hadoop/hadoop-2.6.5/etc/hadoop，配置文件将和本文档放在一起，请注意查看！

8.配置文件，有多少台机器，就配置多少台，并且每台机器的配置文件要一样！添加jvm，vi /home/hadoop/hadoop-2.6.5/etc/hadoop/hadoop-env.sh，在第25行编辑jdk的位置！export JAVA_HOME=/home/jdk1.8.0_161，保存退出！其余文件直接拷贝进去！具体修请看文件注释！切记，所有机器上面的配置文件要一直！在主节点上配置环境变量，vi /etc/profile，在文件最后添加：export PATH=$PATH:/home/hadoop-2.6.5/bin export PATH=$PATH:/home/hadoop-2.6.5/sbin

重启配置文件使之生效：source /etc/profile

9.格式化集群！格式化之前，建议关闭防火墙并且一定要确保自己的zookeeper集群是正常启动的！首先根据你的配置文件hdfs-site.xml中有个配置项：中配置的所有的节点上启动journalnode，具体的所有节点上面所启动的进程的作用，会在配置文件中做介绍！/home/hadoop/hadoop-2.6.5/sbin/hadoop-daemon.sh start journalnode。切记，你配置了多少台节点，就必须在相应的节点上都启动！Jps看一下，如果看到有JournalNode进程即为启动成功。

然后在主节点上格式化集群：切换到自己的主节点，因为主节点是配置了环境变量，所以不用进入到目录下执行命令，全局都可以执行！（格式化之前建议关闭防火墙，如果要开放集群端口的话，操作很麻烦，要开放的端口我会在配置文件的地方列举出来）。

hdfs namenode -format，中途会让你选择y/no输入y，在格式化的时候注意一下有没有报错，报错即为格式化失败，那么看一下错误信息。大多数情况下都会因为所有机器的配置文件不一样会报错，又或者配置文件中的少了字母或者斜杠，还有就是配置文件中的dir路径是否存在，那个必须是新建的目录，而且要保证这个路径是全部机器上都是一样的！所有机器，都是一样的配置，所以可以在主节点上面配置好了再拷贝到其他节点！Scp /home/hadoop/hadoop-2.6.5/etc/hadoop/*root@master1/home/hadoop/hadoop-2.6.5/etc/hadoop/

如果格式化没有发生错误的话，那么进行下一步：hdfs zkfc -formatZK，中途也会让你选择y/no，输入y。没报错即为格式化成功！然后在主节点，以上操作都是在主节点上面操作，主节点有2个(一个使用，一个备用)，在正在使用的节点上面操作。启动hadoop集群：start-all.sh。在使用的节点上面去查看进程，如果出现：和即为启动成功，伴随的进程还有和，这2个没启动可以不用管。多jps几次看一下，如果有进程消失即为启动失败。如果启动失败，在/home/hadoop/hadoop-2.6.5/logs/会有所有进程的启动日志，如果发现哪个进程没有启动，就查看哪个进程的日志！

注意：常见的错误会有namenode和datanode启动之后会消失，或者直接没启动！查看防火墙和日志，具体错误还是要看日志，能读懂最好，读不懂就将错误或异常百度一下。

然后在主节点下执行命令：hdfs namenode -bootstrapStandby。到备用节点下面执行：/home/hadoop/hadoop-2.6.5/bin/hdfs namenode -bootstrapStandby，再启动：/home/hadoop/hadoop-2.6.5/sbin/hadoop-daemon.sh start namenode

10.（备用节点）jps查看，如果看到有namenode出现，即为安装成功。

11.到网页上面输入主节点的Ip:端口查看集群状态：端口就是配置文件上面的端口，上面会有详解。如上图所示，即为集群完美搭建成功！