一 MapRecuce_WordCount程序测试
上次的hadoop中的hdfs文件系统中,我们把hadoop根目录下面的conf下的所有.xml文件上传到了hdfs文件系统中,下面我们就通过mapreduce程序来对单词进行一下统计
首先我们进入到hadoop的根目录下面,然后执行如下的命令
hadoop jar hadoop-examples-1.2.1.jar wordcount /opt/data/temp/input/ /opt/data/temp/output/
之后我们再查看下文件系统,你会发现在文件系统中多出了一个output的目录,如下图,表示已经成功了,上面这个命令
主要是用于单词的统计.
接下来我们查看一下统计的结果:
上面是通过命令的方式去查看的,当然我们也可以通过文件系统去查看,结果是一样的.
二 MapRecuce_WordCount程序解析
下面就上面这个图我稍微解析下。
首先是客户将数据我自己的本地文件上传到我们的hdfs分布式文件系统中,当我们的用户运行前面的jar测试程序的时候,首先到hdfs文件系统中拿到这些文件,因为文件系统中有两个文件,每个文件对应一个MapReduce程序,每个程序分别解析文件当中的单词,也就是从Map到sorter的过程,然后会对解析的这些单词进行排序处理,也就是从sorter到Reduc的过程,然后Recuce会对排序的单词进行统计,然后再写到我们的HDFS文件系统上。这里我根据自己的理解去写的。
来源:oschina
链接:https://my.oschina.net/u/2336827/blog/633164