Mapreduce 是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 分布式运算程序,并发运行在一个 hadoop 集群上。MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理。 Hadoop 的四大组件: (1)HDFS:分布式存储系统; (2)MapReduce:分布式计算系统; (3)YARN: hadoop 的资源调度系统; (4)Common: 以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等; 在 MapReduce 组件里, 官方给我们提供了一些样例程序,其中非常有名的就是 wordcount 和 pi 程序,这些程序代码都在 hadoop-example.jar 包里,jar包的安装目录在Hadoop下,为: 下面我们来逐一解读这两个样例程序。 测试前,先关闭防火墙,启动Zookeeper、Hadoop集群,依次顺序为 : 成功启动后,查看进程是否完整。这些可参考之前博客中关于集群的搭建。 一、pi样例程序 (1)执行命令,带上参数 执行程序,参数含义: 第1个参数5指的是要运行5次map任务 ; 第2个参数5指的是每个map任务,要投掷多少次 ; 2个参数的乘积就是总的投掷次数(pi代码就是以投掷来计算值)。 通过上面我们获得了Pi的值:3.680000,当然也可以改变参数来验证得出的结果和参数的关系,比如我的参数换成10和10,则得出的结果为:3.20000。由此可见:参数越大,结果越是精确。 (2)查看运行进程 在执行过程中,它的时间不定,所以我们可以通过访问界面,查看具体的运行进程,访问: 界面显示如下: 从上面我们可以看出:当Progress进程结束,即代表运算过程结束,也可以点击查看具体的内容,这里不做演示了。 二、wordcount样例程序 (1)准备数据,上传HDFS 简单的说就是单词统计,这里我们新建一个txt文件,输入一些单词,方便统计: 输入以下单词,并保存: 上传到HDFS,先在hdfs上创建文件夹,在将txt文件放到该文件夹下,下面是一种创建方式,或者是hadoop fs -mkdir 的方式,二者择其一,注意路径: 我们可以通过访问 slave01:50070,查看HDFS文件系统: 成功上传。 (2)运行程序 执行下面的命令,注意路径: 命令参数的含义: 第一个指的是jar包路径,第二个指的是要执行的样例程序名称wordcount,第三个指的是文件所在的HDFS路径,第四个指的是要输出的文件目录(不要是已经存在的)。 上面是输出结果,同样的我们可以通过访问 slave01:8088 查看进程。 执行结束后,在HDFS文件系统上,可以看到输出的目录已经创建好了,且里面存在了输出的文件: 通过命令,可以查看执行后的结果文件: 从上面可以看出:单词已经统计完成,我们可以对照文件进行验证。 好了,上面是对两个已有样例的解读,至于代码方面有空再一起讨论吧。
|
|