第六讲:hadoop搭建伪分布式模式并做词频分析
以下我们要进行: 1、搭建hadoop伪分布式模式,启动hdfs 2、上传文档到hdfs 3、对hdfs里面的文档进行词频分析 首先: 1、确保jdk安装正确 2、确保安装并配置hadoop ,以下是hadoop的版本 通过第四讲的配置启动hadoop服务,输入jps可以查看到 3、确保hdfs正常运行 ,通过网页可以查看到hdfs页面数据: 在浏览器输入:localhost:50070 4、新建一个本地文件 ,并且上传到hdfs上面 查看上传的文件内容: 5、使用命令进行词频分析 如果是hdfs已经启动的话,hadoop jar XXXX.jar wordcount 命令默认是访问hdfs里面的文件。 以上的命令:加入$hadoop_home ,系统会自动把配置文件里面的这个变量取出来,这样我就不需要cd进入到对应的文件夹,这里默认就是绝对路径了。 语句的意思:调用hadoop自带的hadoop-mapreduce-examples-2.9.2.jar 里面的wordcount 方法对hdfs里面的/user/liurihui/newWord.txt文档进行词频分析,分析结果存储在hdfs根目录下面的resultOut文件夹,系统会自动创建这个文件夹。 系统在词频分析的时候,我们看系统打印出来的日志,可以看到系统默认会在/user/liurihui/newWord