hdfs命令

Hadoop实战读书笔记(5)

依然范特西╮ 提交于 2019-12-04 04:55:48
HDFS 文件操作 你可以把一个大数据集( 100TB )在 HDFS 中存储为单个文件,而大多数其他的文件系统无力实现这一点。虽然该文件存在多个副本分布在多台机器上来支持并行处理,你也不必考虑这些细节。 HDFS ( Hadoop Distribution File System )文件系统到底是一个怎样的文件系统? 并不是一个 Unix 文件系统,不支持像 ls 和 cp 这种标准的 Unix 文件命令,也不支持如 fopen() 和 fread() 这样的标准文件读写操作。但是 Hadoop 提供了一套与 Linux 文件命令类似的命令行工具。 一个典型的 Hadoop 工作流是指? 1 、在别的地方生成数据文件(如日志文件)再将其复制到 HDFS 中。 2 、由 MapReduce 程序处理这个数据,读取 HDFS 文件并将之解析为独立的记录(键 / 值对) 3 、除非要定制数据的导入与导出,否则你几乎不必编程来读写 HDFS 文件。 Hadoop 文件命令采取的形式是? hadoop fs -cmd <args> cmd 是具体的文件命令,而 <args> 是一组数目可变的参数。 cmd 的命名通常与 UNIX 对应的命令名相同。如,文件列表的命令为: hadoop fs -ls Hadoop 最常用的文件管理任务包括? 1 、添加文件和目录 2 、获取文件 3

hdfs命令

可紊 提交于 2019-12-03 15:21:47
使用:hdfs --help,hdfs dfs -help查看命令帮助,很详细。 1.hdfs dfs,是最常用的命令了,跟linux的命令很相似,包含所有操作hdfs目录的命令 hdfs dfs -put file1 /dir/ 将linux文件系统的file1上传到hdfs中的dir目录中 hdfs dfs -test -e /data 判断文件或者目录是否存在,如果存在则命令执行状态返回0,不存在返回1,在下一行使用$?获得上一行的执行状态。 hdfs dfs -test -d $1 判断某个目录是否存在,如果存在则命令执行状态返回0,不存在返回1,在下一行使用$?获得上一行的执行状态。 hdfs dfs -find $1 -name "*.ok" 查找某个目录是否有.ok文件的目录,,如果存在则命令执行状态返回0,不存在返回1,在下一行使用$?获得上一行的执行状态。 hdfs dfs -du –s $1 查看某文件夹大小 hdfs dfs -mkdir -p $1 新建文件夹$1,如果父文件夹没有,也会一起新建,因为加了参数p,如果不加p,父目录没有的话会报错 2.hdfs dfsadmin,hdfs管理方面的命令 hdfs dfsadmin -report 报告hdfs系统的状况 hdfs dfsadmin -safemode enter 进入安全模式,进行安全模式的检查

Hadoop(五)搭建Hadoop客户端与Java访问HDFS集群

喜欢而已 提交于 2019-12-03 14:29:19
  上一篇详细介绍了HDFS集群,还有操作HDFS集群的一些命令,常用的命令: hdfs dfs -ls xxx hdfs dfs -mkdir -p /xxx/xxx hdfs dfs -cat xxx hdfs dfs -put local cluster hdfs dfs -get cluster local hdfs dfs -cp /xxx/xxx /xxx/xxx hdfs dfs -chmod -R 777 /xxx hdfs dfs -chown -R zyh:zyh /xxx   注意:这里要说明一下-cp,我们可以从本地文件拷贝到集群,集群拷贝到本地,集群拷贝到集群。 一、Hadoop客户端配置   其实在前面配置的每一个集群节点都可以做一个Hadoop客户端。但是我们一般都不会拿用来做集群的服务器来做客户端,需要单独的配置一个客户端。 1)安装JDK 2)安装Hadoop 3)客户端配置子core-site.xml    4)客户端配置之mapred-site.xml    5)客户端配置之yarn-site.xml    以上就搭建了一个Hadoop的客户端 二、Java访问HDFS集群 2.1、HDFS的Java访问接口    1)org.apache.hadoop.fs.FileSystem     是一个通用的文件系统API

Hadoop(二)搭建伪分布式集群

烂漫一生 提交于 2019-12-03 14:27:32
Hadoop(二)搭建伪分布式集群 前言   前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mode)   -默认情况下,Hadoop即处于该模式,用于开发和调式。   -不对配置文件进行修改。   -使用本地文件系统,而不是分布式文件系统。   -Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。   -用于对MapReduce程序的逻辑进行调试,确保程序的正确。 1.2、伪分布式模式(Pseudo-Distrubuted Mode)   -Hadoop的守护进程运行在本机机器,模拟一个小规模的集群    -在一台主机模拟多主机。   -Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。   -在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由JobTraker服务,来管理的独立进程。在单机模式之上增加了代码调试功能

大数据学习---day05----hadoop02--------补充配置(hadoop的环境变量配置,修改shell客户端默认操作的文件系统为hdfs系统)

扶醉桌前 提交于 2019-12-03 09:36:17
1.补充配置 1.1 Hadoop的环境变量的配置 vi /etc/profile $PATH:表示取出前面的环境变量的配置,此处前面有java环境变量的配置,所以不需要再配置,若没有则需要 “:” 表示连接符号,功能和windows中的%一样 export: 类似public的作用,扩大作用范围的 1.2 修改shell客户端默认操作的文件系统为hdfs系统   hdfs文件系统提供了一套操作文件系统的shell客户端命令,但是其默认操作的是本地系统,如下 不加上namenode的路径,操作的是本地系统 加上namenode的地址,操作的就是hdfs的文件系统 但是每次都这样写就很麻烦,所以进行相应的配置,如下: 在core-site.xml文件中添加如下: <property> <name>fs.defaultFS</name> <value>hdfs://doit01:9000/</value> </property> 这个时候执行 hdfs dfs -ls / 就能直接操作hdfs文件系统了 来源: https://www.cnblogs.com/jj1106/p/11785656.html

Docker 安装HDFS

∥☆過路亽.° 提交于 2019-12-03 06:51:52
网上拉取Docker模板,使用singlarities/hadoop镜像 [root@localhost /]# docker pull singularities/hadoop 查看: [root@localhost /]# docker image ls REPOSITORY TAG IMAGE ID CREATED SIZE docker.io/singularities/hadoop latest e213c9ae1b36 3 months ago 1.19 GB 创建docker-compose.yml文件,内容: version: "2" services: namenode: image: singularities/hadoop command: start-hadoop namenode hostname: namenode environment: HDFS_USER: hdfsuser ports: - "8020:8020" - "14000:14000" - "50070:50070" - "50075:50075" - "10020:10020" - "13562:13562" - "19888:19888" datanode: image: singularities/hadoop command: start-hadoop datanode

三分钟了解hadoop

可紊 提交于 2019-12-03 06:36:57
HADOOP简介 一.大数据思维 1.什么是大数据思维 分而治之:把一个复杂的问题按一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的中间结果,把各部分的中间结果组成整个问题的最终结果。 并行:提升速度的关键 分布式运行 计算与数据在一起 计算向数据移动 二.Hadoop的历史 1.三篇论文 GFS----HDFS MapReduce---MapReduce BigTable----HBase 2.Hadoop Models Hadoop Common:基础型模块。RPC调用,Socket通信 Hadoop Distributed File System 分布式文件系统,用于存储大数据的信息 Hadoop YARN 资源协调框架 Hadoop MapReduce 大数据计算框架 Hadoop Ozone: 对象存储框架 Hadoop Submarine: 机器学习引擎 3.分布式文件系统 1.分布式文件系统架构 FS File System 文件系统是基于硬盘之上的一个文件管理的工具 我们用户操作文件系统可以和硬盘进行解耦 DFS Distributed File System: 分布式文件系统 将我们的数据存放在多台电脑上存储 分布式文件系统有很多, HDFS是mapreduce计算的基础 2.分布式架构的原理 如何拆分

hadoop全分布式高可用方案

老子叫甜甜 提交于 2019-12-03 02:14:10
集群规划: 主机名 IP 安装的软件 运行的进程 hadoop01 192.168.88.155 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain hadoop02(A)192.168.88.164 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain hadoop03(B)192.168.88.165 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain hadoop04(C)192.168.88.162 jdk、hadoop NameNode、DFSZKFailoverController(zkfc) hadoop05(D)192.168.88.166 jdk、hadoop NameNode、DFSZKFailoverController(zkfc) hadoop06(E)192.168.88.167 jdk、hadoop ResourceManager hadoop07(F) 192.168.88.168 jdk、hadoop ResourceManager 说明: 1.在hadoop2.0中通常由两个NameNode组成

Hadoop - Hadoop伪分布式搭建

匿名 (未验证) 提交于 2019-12-03 00:41:02
进行 Hadoop伪分布式搭建时,需要有一定的Linux命令基础, 因为 Hadoop是搭建在Linux环境上的开源框架, Hadoop的框架最核心的设计就是:HDFS和MapReduce。 本文也主要讲述 HDFS和MapReduce环境的搭建。 搭建环境: 虚拟机: VMware10 操作系统:CentOS - 6.5 JDK版本:jdk -8u171-linux- x64 Hadoop版本:hadoop - 2.7 . 3 使用工具:Xshell 6 ,Xftp 6 ,Notepad++ 虚拟机ip地址:192.168.72.10 一、 虚拟机网络环境配置 1.首先移动到网络配置文件的目录下: [root@localhost ~]# cd /etc/sysconfig/network-scripts. 2.查看一下文件夹下的文件 [root@localhost network-scripts]# ls 3.ifcfg-eth0( net 模式 ) [root@localhost network-scripts]# vi ifcfg-eth0  ifcfg-eth0 DEVICE= eth0 HWADDR = 00 :0C: 29 :2C:8A:1C TYPE = Ethernet UUID =a3222bc4-07ad-4b2c- 8168 - 9123758f0333

CentOs7 安装Hadoop-3.1.0集群搭建

匿名 (未验证) 提交于 2019-12-03 00:29:01
虚拟机准备 master 172.16.20.11 slave1 172.16.20.12 slave2 172.16.20.13 安装JDK version 1.8.0_121,注意需要配置环境变量。 安装:参考 https://blog.csdn.net/boonya/article/details/55506386 SSH免密登录 1、修改hostname [root@localhost local]# hostname master [root@localhost local]# hostname master [root@localhost local]# [root@localhost local]# hostname slave1 [root@localhost local]# hostname slave1 [root@localhost local]# [root@localhost local]# hostname slave2 [root@localhost local]# hostname slave2 [root@localhost local]# 2、修改/etc/hosts文件 172.16.20.11 master 172.16.20.12 slave1 172.16.20.13 slave2 3、ping验证 [root@localhost