初涉MapReduce程序 | 易学教程

一 MapRecuce_WordCount程序测试

上次的hadoop中的hdfs文件系统中,我们把hadoop根目录下面的conf下的所有.xml文件上传到了hdfs文件系统中,下面我们就通过mapreduce程序来对单词进行一下统计

首先我们进入到hadoop的根目录下面,然后执行如下的命令

hadoop jar hadoop-examples-1.2.1.jar wordcount /opt/data/temp/input/ /opt/data/temp/output/

之后我们再查看下文件系统,你会发现在文件系统中多出了一个output的目录,如下图,表示已经成功了,上面这个命令

主要是用于单词的统计.

接下来我们查看一下统计的结果:

上面是通过命令的方式去查看的,当然我们也可以通过文件系统去查看,结果是一样的.

二 MapRecuce_WordCount程序解析

下面就上面这个图我稍微解析下。

首先是客户将数据我自己的本地文件上传到我们的hdfs分布式文件系统中，当我们的用户运行前面的jar测试程序的时候，首先到hdfs文件系统中拿到这些文件，因为文件系统中有两个文件，每个文件对应一个MapReduce程序，每个程序分别解析文件当中的单词，也就是从Map到sorter的过程，然后会对解析的这些单词进行排序处理，也就是从sorter到Reduc的过程，然后Recuce会对排序的单词进行统计，然后再写到我们的HDFS文件系统上。这里我根据自己的理解去写的。

来源：oschina

链接：https://my.oschina.net/u/2336827/blog/633164

标签

Hadoop

HDFS

MapReduce