Hadoop的安装以及分布式环境的搭建 Hadoop 2.x的安装与配置 准备: 1、安装Linux和JDK 2、关闭防火墙 3、配置主机名 解压:tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/ 设置环境变量 Vi ~/.bash_profile HADOOP_HOME=/root/training/hadoop-2.7.3 Export HADOOP_HOME PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH Export PATH 文件生效:source ~/.bash_profile
输入start- 然后按两次Tab键,就会出现素有的启动服务的命令。 同理,输入stop-,然后按两次Tab键,会狐仙所有的停止服务的命令。
介绍Hadoop的目录结构: Hadoop有三种安装模式 1、本地模式 一台Linux (*)特点:没有HDFS,只能测试MapReduce 程序(本地数据:Linux的文件) (*)配置:修改hadoop-env.sh 26行 export JAVA_HOME=/root/training/jdk1.8.0_144 (*) Demo:测试MapReduce程序 Example: /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar 进入~/reININF/Hsoop-2.7.3/share/hadoop/mapreduce 这里有很多关于mapreduce的jar包。 执行:hadoop jar hadoop-mapreduce-examples-2.7.3.jar 此时我们创建一个文件并打开: Vi ~/temp/data.txt I love Beijing I love China Beijing is the capital the China 1、伪分布模式 一台Linux (*)特点:在单机上,模拟一个分布式的环境,具备Hadoop的所有功能呢 (*) hdfs-site.xml <!-- 数据库的冗余度,默认是3 --> <!-- <property> <name>dfs.replication</name> <value>1</value> </property> --> <!-- 是否开启HDFS的权限检查,默认是:true --> <!-- <property> <name>dfs.permissions</name> <value>false</value> </property> --> (*) core-site.xml <!-- NameNode地址 --> <property> <name>fs.defaultFS</name> <value>hdfs://bigdata11:9000</value> </property>
<!-- HDFS数据保存的目录,默认是linux的tmp目录 --> 注意:这个目录,linux每次启动的时候会自动删除,所以一定不能放在这个目录下面。-- <property> <name>hadoop.tmp.dir</name> <value>/root/training/hadoop-2.7.3/tmp</value> </property> (*) mapred-site.xml <!-- MR程序运行的容器是Yarn --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
没有mapred-site这个文件,但是有mapred-site.xml.template这个模板文件,把这个拷贝一份改成这个名字。 cp mapred-site.xml.template mapred-site.xml
(*) yarn.site.xml
<!-- ResourceMamager的地址 --> <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata11</value> </property>
<!-- NodeManager运行MR任务的方式 --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce shuffle</value> </property>
对NameNode进行格式化:hdfs namenode -format 日志:Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted 启动:start-all.sh 再次期间需要输入四次密码:如果出现除jps意外有五个服务,说明启动成功 停止:stop-all.sh 此期间输入四次密码。 所以:启动与停止需要输入的密码次数之多,所以,又必要学习免密码登陆 1、全分布模式 特点:真正的分布式环境,用于生产。
|
|