第七讲:hadoop搭建伪分布式模式并启动YARN做词频分析
以下我们要进行: 1、搭建hadoop伪分布式模式,启动hdfs 2、上传文档到hdfs 3、配置YARN,启动YARN对hdfs里面的文档进行词频分析 首先: 1、确保jdk安装正确 2、确保安装并配置hadoop ,以下是hadoop的版本 通过第四讲的配置启动hadoop服务,输入jps可以查看到 3、确保hdfs正常运行 ,通过网页可以查看到hdfs页面数据: 在浏览器输入:localhost:50070 4、新建一个本地文件 ,并且上传到hdfs上面 查看上传的文件内容: 5、配置YARN 首先,什么是YARN? YARN 的全拼:Yet Another Resource Negotiator 含义是:“另一种资源协调者“ 是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。是从Hadoop2开始的。算是MapReduce的升级版。为什么会有升级版本呢?我们下面看下MapReduce 1.0 和 MapReduce2.0(也就是YARN)的区别: 以下是hadoop版本和MapReduce对应的版本关系: Hadoop版本 MapReduce对应版本 1.X MapReduce1.0 2.X MapReduce2.0 如果你的是hadoop2.X 版本的