Spark1.5.0 Hadoop2.7.1整合

昵称1296296 2016-01-14

展开全文

Hadoop2.7.1已经配置完毕。

Hosts分配如下：

master 172.16.15.140slave1 172.15.15.141slave2 172.16.15.1421
2
3

一、安装Scala：

下载地址：http://www./download/2.11.7.html
（scala-2.11.7.tgz）
以下全部使用root权限操作。

（1）创建/usr/scala文件夹：

mkdir /usr/scala1

（2）将压缩包解压至/usr/scala 目录：

tar zxvf /home/hadoop/scala-2.11.7.tgz -C /usr/scala1

（3）设置环境变量：

vim /etc/profile#追加如下内容export SCALA_HOME=/usr/scala/scala-2.11.7export PATH=$PATH:$SCALA_HOME/bin1
2
3
4

（4）使之生效（不用root权限）：

source /etc/profile1

（5）测试Scala是否安装配置成功（不用root权限）：

scala -version1

二、安装Spark

官网下载spark1.5.0：spark-1.5.0-bin-hadoop2.6.tgz
以下全部使用root权限操作

（1）将压缩包解压至/usr目录：

tar zxvf /home/hadoop/spark-1.5.0-bin-hadoop2.6.tgz -C /usr/spark1

（2）将spark文件夹授权给hadoop用户：

chown -R hadoop:hadoop /usr/spark/1

（3）设置环境变量：

vim /etc/profile#追加如下内容export SPARK_HOME=/usr/spark/spark-1.5.0export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin1
2
3
4

（4）使之生效（不用root权限）

source /etc/profile1

（5）测试Spark是否安装配置成功（不用root权限）：

spark-shell --version1

（6）运行SparkPi（不用root权限）

run-example org.apache.spark.examples.SparkPi 101

（7）以下不用root权限，使用hadoop用户。配置Spark：

修改spark-env.sh

cd /usr/spark/spark-1.5.0/conf/cp spark-env.sh.template spark-env.shvi spark-env.sh#   追加如下内容export SCALA_HOME=/usr/scala/scala-2.11.7export JAVA_HOME=/usr/java/jdk1.7.0_80export SPARK_MASTER_IP=172.16.15.140export SPARK_WORKER_MEMORY=1024m1
2
3
4
5
6
7
8
9
10

启动Spark
```
$SPARK_HOME/sbin/start-all.sh1
```
提交任务到Spark集群

spark-submit --master spark://172.16.15.140:7077 --class org.apache.spark.examples.SparkPi --name Spark-Pi /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar1

使用web查看Spark运行状态

http://master:8080/1

三、与Hadoop结合使用

分别开启Hadoop集群和Spark集群。

$HDOOP_HOME/sbin/start-dfs.sh$HDOOP_HOME/sbin/start-yarn.sh$SPARK_HOME/sbin/start-all.sh1
2
3

在Yarn中运行Spark任务，编辑spark-env.sh：

vim /usr/spark/spark-1.5.0/conf/spark-env.sh#追加如下内容export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.7.1/etc/hadoop1
2
3

提交Spark任务到yarn中

spark-submit --master yarn-cluster --class org.apache.spark.examples.SparkLR --name SparkLR /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar1

使用web查看任务运行状态（Hadoop的任务监控WebUI）

http://master:8088/1

结合HDFS，Spark的输入是HDFS的文件

spark-submit --master yarn-cluster --class org.apache.spark.examples.JavaWordCount --name JavaWordCount /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar hdfs://master:9000/data/1

spark-submit工具的参数说明：

spark-submit工具