初涉MapReduce程序

♀尐吖头ヾ 提交于 2020-03-04 11:17:51

一  MapRecuce_WordCount程序测试

上次的hadoop中的hdfs文件系统中,我们把hadoop根目录下面的conf下的所有.xml文件上传到了hdfs文件系统中,下面我们就通过mapreduce程序来对单词进行一下统计

首先我们进入到hadoop的根目录下面,然后执行如下的命令

hadoop jar hadoop-examples-1.2.1.jar wordcount /opt/data/temp/input/ /opt/data/temp/output/

之后我们再查看下文件系统,你会发现在文件系统中多出了一个output的目录,如下图,表示已经成功了,上面这个命令

主要是用于单词的统计.

接下来我们查看一下统计的结果:

上面是通过命令的方式去查看的,当然我们也可以通过文件系统去查看,结果是一样的.



二  MapRecuce_WordCount程序解析



下面就上面这个图我稍微解析下。

首先是客户将数据我自己的本地文件上传到我们的hdfs分布式文件系统中,当我们的用户运行前面的jar测试程序的时候,首先到hdfs文件系统中拿到这些文件,因为文件系统中有两个文件,每个文件对应一个MapReduce程序,每个程序分别解析文件当中的单词,也就是从Map到sorter的过程,然后会对解析的这些单词进行排序处理,也就是从sorter到Reduc的过程,然后Recuce会对排序的单词进行统计,然后再写到我们的HDFS文件系统上。这里我根据自己的理解去写的。


易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!