1.1.2

Hadoop上路_05-HDFS中的文件操作

流过昼夜 提交于 2020-03-05 20:51:40
1.Hadoop 操作: 1 ) 查看Hadoop 版本: 2 )自动开启 Hadoop : hm@hm-ubuntu:~$ start-all.sh 3 )手动开启 Hadoop : 2.HDFS 操作: 1 )查看 HDFS 上的文件: hadoop dfs -ls / 等同于 hadoop fs -ls / 2 )向 HDFS 上传文件: (1)使用put 命令: hadoop fs -put test.txt /home/fs-test.txt ( 2 )使用 copyFromLocal 命令: hadoop fs -copyFromLocal 本地目录/本地文件 /HDFS目录/文件 3 )从 HDFS 下载文件: hadoop fs -get /HDFS目录/文件 本地目录/文件 (1)拷贝单个文件: ( 2 )拷贝整个目录: 红色方框选中的hadoop-hm 目录是之前我们在 core-site.xml 文件中配置的临时目录。红色椭圆选中的 home 是刚刚我们 congHDFS 下载的文件夹。 4 )删除 HDFS 上的文件: hadoop fs -rmr /home/*.txt 5)HDFS 的更多命令: 3.MapReduce示例操作-统计字符 1 )在 HDFS 上执行 jar 程序: hadoop jar hadoop-examples-1.1.2.jar

Hadoop上路_02-hadoop介绍和环境准备

空扰寡人 提交于 2019-12-03 20:05:45
Hadoop 介绍: 1. Hadoop 项目组成: 1 ) hadoop Common : hadoop 的核心 。包括文件系统、远程调用 RPC 的序列化函数。 2 ) HDSF : 高吞吐量分布式文件系统。是 GFS 的开源实现。通过 hadoop fs命令来读取。 3 ) MapReduce : 大型分布式合并 / 计算数据处理模型 。Google MapReduce 的开源实现。 4 )其它 : Cassandra : 由 Facebook 开发分布式数据仓库。 apache 已经将 Cassandra 应用到各种云计算系统中。 Hbase : 结构化分部式数据库。 BigTable 的开源实现。 Hive : 提供摘要和查询功能的数据仓库。 2. Hadoop 系统构成: 每个节点都是一个 Java 进程。 namenode:主控节点 在一个hadoop系统中只有一个namenode。一旦主控服务器宕机,整个系统将无法运行。 namenode 是整个 hadoop系统的守护进程。 负责记录文件是如何分割成数据块。 管理数据块分别存储到哪些数据节点上。 对内存进行集中管理。 secondarynamenode:辅助节点 监控 HDFS 状态的辅助后台程序。如保存 namenode 的快照。 jobtracker:下发任务(拆分数据) 用户连接应用程序和 hadoop

Hadoop上路_01-手动制作hadoop-eclipse-plugin插件

南笙酒味 提交于 2019-12-03 20:05:24
一.环境准备: 1.VirtualBox 虚拟机: VirtualBox-4.2.8-83876-Win.exe 1 )安装扩展: Oracle_VM_VirtualBox_Extension_Pack-4.2.8-83876.vbox-extpack 2 )开启网络(必需连接到互联网): 3 )安装 Ubuntu : ubuntu-10.04-desktop-i386.iso (1)安装: ( 2 )启用粘贴板共享和拖放支持: ( 3 )安装增强功能: ( 4 )初始化 root 用户: sudo passwd root 2. 安装 jdk ,配置环境变量: jdk-6u24-linux-i586.bin sudo chmod u+x jdk-6u24-linux-i586.bin sudo -s ./jdk-6u24-linux-i586.bin sudo gedit /etc/profile export JAVA_HOME=%JDK% export CLASSPATH=$JAVA_HOME/lib export PATH=$JAVA_HOME/bin:$PATH source /etc/profile 或 jdk-7u17-linux-i586.tar.gz ( 本例使用 ) sudo tar -xzvf jdk-7u17-linux-i586.tar.gz sudo

Hadoop上路_06-在Ubuntu中使用eclipse操作HDFS

别说谁变了你拦得住时间么 提交于 2019-12-03 20:05:09
1. 解压 eclipse : eclipse-SDK-4.2-linux-gtk.tar.gz ( 1 )解压程序文件: hm@hm-ubuntu:/usr$ sudo tar eclipse.tar.gz ( 2 )在 Ubuntu 桌面点鼠标右键, 创建启动器: ( 3 )在“命令”选择 eclipse 执行文件: 2. 安装 hadoop 开发插件: hadoop-eclipse-plugin-*.jar 插件须符合此 eclipse 版本。 ( 1 )手动制作 hadoop-eclipse-plugin 插件 见《Hadoop上路_01-手动制作hadoop-eclipse-plugin插件 》 ( 2 )把插件放入 %eclipse%/dropins/hadoop/plugins 目录 首先在 %eclipse%/dropins/ 中创建 hadoop/plugins 层级目录 3. 执行快捷方式: 错误: 重新配置了环境变量中的 jdk 路径, eclipse 不能检测到新路径 解决: 更新环境变量后重启系统 4. 配置 Hadoop 视图: 1 ) window -> preferences -> Hadoop Map/Reduce , 配置任意 hadoop 解压目录(仅在创建 Map/Reduce Project 项目时供自动加载 jar 包用;如果创建