分享

Hadoop的安装以及分布式环境的搭建

 小马哥技术屋 2018-05-15

Hadoop的安装以及分布式环境的搭建

Hadoop 2.x的安装与配置

准备:

1、安装LinuxJDK

2、关闭防火墙

3、配置主机名

解压:tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/

设置环境变量

Vi ~/.bash_profile

HADOOP_HOME=/root/training/hadoop-2.7.3

Export HADOOP_HOME

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

Export PATH


文件生效:source ~/.bash_profile

 

输入start- 然后按两次Tab键,就会出现素有的启动服务的命令。

同理,输入stop-,然后按两次Tab键,会狐仙所有的停止服务的命令。

 

介绍Hadoop的目录结构:

 
 

Hadoop有三种安装模式

1、本地模式  一台Linux

(*)特点:没有HDFS,只能测试MapReduce 程序(本地数据:Linux的文件)

(*)配置:修改hadoop-env.sh

  26export JAVA_HOME=/root/training/jdk1.8.0_144

(*) Demo:测试MapReduce程序

   Example: /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

      进入~/reININF/Hsoop-2.7.3/share/hadoop/mapreduce

      这里有很多关于mapreducejar包。

 
 执行:hadoop jar  hadoop-mapreduce-examples-2.7.3.jar
 
 

此时我们创建一个文件并打开:

 Vi ~/temp/data.txt

I love Beijing

I love China

Beijing is the capital the China


 
 1、伪分布模式  一台Linux

 
 

(*)特点:在单机上,模拟一个分布式的环境,具备Hadoop的所有功能呢

(*) hdfs-site.xml

   <!-- 数据库的冗余度,默认是3 -->

  <!--

    <property>

       <name>dfs.replication</name>

       <value>1</value>

    </property>

  -->

  <!-- 是否开启HDFS的权限检查,默认是:true -->

  <!--

    <property>

        <name>dfs.permissions</name>

        <value>false</value>

</property>

  -->

(*) core-site.xml

  <!-- NameNode地址 -->

     <property>

        <name>fs.defaultFS</name>

        <value>hdfs://bigdata11:9000</value>

</property>

 

<!-- HDFS数据保存的目录,默认是linuxtmp目录 --> 注意:这个目录,linux每次启动的时候会自动删除,所以一定不能放在这个目录下面。--

  

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/root/training/hadoop-2.7.3/tmp</value>

</property>

  

  (*) mapred-site.xml

<!-- MR程序运行的容器是Yarn -->

  <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

</property>

 

没有mapred-site这个文件,但是有mapred-site.xml.template这个模板文件,把这个拷贝一份改成这个名字。

cp mapred-site.xml.template  mapred-site.xml

 

(*) yarn.site.xml

 

<!-- ResourceMamager的地址 -->

  <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>bigdata11</value>

</property>

 

  <!-- NodeManager运行MR任务的方式 -->

  <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce  shuffle</value>

</property>

 

NameNode进行格式化:hdfs namenode -format

日志:Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted

启动:start-all.sh

再次期间需要输入四次密码:如果出现除jps意外有五个服务,说明启动成功

 
 

停止:stop-all.sh

此期间输入四次密码。

 
 
所以:启动与停止需要输入的密码次数之多,所以,又必要学习免密码登陆

1、全分布模式

特点:真正的分布式环境,用于生产。

 


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多