搜索

分享

QQ空间 QQ好友新浪微博微信

解读MapReduce程序实例

小牛学堂666 2018-09-11

展开全文

Mapreduce 是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 hadoop 集群上。MapReduce采用“分而治之”策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片（split），这些分片可以被多个Map任务并行处理。

Hadoop 的四大组件：

（1）HDFS：分布式存储系统；

（2）MapReduce：分布式计算系统；

（3）YARN： hadoop 的资源调度系统；

（4）Common：以上三大组件的底层支撑组件，主要提供基础工具包和 RPC 框架等；

在 MapReduce 组件里，官方给我们提供了一些样例程序，其中非常有名的就是 wordcount 和 pi 程序，这些程序代码都在 hadoop-example.jar 包里，jar包的安装目录在Hadoop下，为：

下面我们来逐一解读这两个样例程序。

测试前，先关闭防火墙，启动Zookeeper、Hadoop集群，依次顺序为：

成功启动后，查看进程是否完整。这些可参考之前博客中关于集群的搭建。

一、pi样例程序

（1）执行命令，带上参数

执行程序，参数含义：

第1个参数5指的是要运行5次map任务；

第2个参数5指的是每个map任务，要投掷多少次；

2个参数的乘积就是总的投掷次数（pi代码就是以投掷来计算值）。

通过上面我们获得了Pi的值：3.680000，当然也可以改变参数来验证得出的结果和参数的关系，比如我的参数换成10和10，则得出的结果为：3.20000。由此可见：参数越大，结果越是精确。

（2）查看运行进程

在执行过程中，它的时间不定，所以我们可以通过访问界面，查看具体的运行进程，访问：

界面显示如下：

从上面我们可以看出：当Progress进程结束，即代表运算过程结束，也可以点击查看具体的内容，这里不做演示了。

二、wordcount样例程序

（1）准备数据，上传HDFS

简单的说就是单词统计，这里我们新建一个txt文件，输入一些单词，方便统计：

输入以下单词，并保存：

上传到HDFS，先在hdfs上创建文件夹，在将txt文件放到该文件夹下，下面是一种创建方式，或者是hadoop fs -mkdir 的方式，二者择其一，注意路径：

我们可以通过访问 slave01:50070，查看HDFS文件系统：

成功上传。

（2）运行程序

执行下面的命令，注意路径：

命令参数的含义：

第一个指的是jar包路径，第二个指的是要执行的样例程序名称wordcount，第三个指的是文件所在的HDFS路径，第四个指的是要输出的文件目录（不要是已经存在的）。

上面是输出结果，同样的我们可以通过访问 slave01:8088 查看进程。

执行结束后，在HDFS文件系统上，可以看到输出的目录已经创建好了，且里面存在了输出的文件：

通过命令，可以查看执行后的结果文件：

从上面可以看出：单词已经统计完成，我们可以对照文件进行验证。

好了，上面是对两个已有样例的解读，至于代码方面有空再一起讨论吧。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：小牛学堂666 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

小牛学堂666

关注对话

TA的最新馆藏

Redis为何这么快--数据存储角度
JavaScript 标准之 Map对象
谈谈机器学习模型的部署
全面对比，深度解析 Ignite 与 Spark
Ignite集成Spark之IgniteDataFrames
全面对比，深度解析 Ignite 与 Spark

喜欢该文的人也喜欢更多

热门阅读换一换