Hadoop+Spark分布式集群环境搭建
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,而Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。 下面使用在同一个局域网下的两台电脑搭建分布式计算的环境: 其中JDK、Hadoop、Spark都已经在两台电脑上安装好。 一台Ubuntu主机系统Master,IP地址假设为:192.168.1.101( ifconfig 查看IP地址) 一台Ubuntu主机系统Slave ,IP地址假设为:192.168.1.108 (互ping一下,测试能否ping通) 修改主机名(方便区分主机): sudo vim /etc/hostname #分别修改为Master、Slave 修改完后分别重启一下,在终端Shell中可看到机器名的变化。 修改两台电脑的/etc/hosts文件, sudo vim /etc/hosts 添加同样的配置: 127.0.0.1 localhost 192.168.1.101 Master 192.168.1.108 Slave 配置完后在Master上检测一下能否ping通: ping Slave 配置ssh无密码登录本机和访问集群机器 sudo apt-get openssh-server #若未安装ssh需先安装 ssh-keygen -t rsa -P "" cat $HOME/.ssh/id_rsa