hdfs命令

hadoop简介

馋奶兔 提交于 2019-12-08 19:01:47
转: http://baike.baidu.com/link?url=HwhPVuqqWelWIr0TeSBGPZ5SjoaYb5_Givp9-rJN-PYbSTMlwpECSKvjzLBzUE7hn9VvmhDoKb5NNCPw1pCsTa Hadoop 是一个由Apache基金会所开发的 分布式系统 基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 [1] Hadoop实现了一个 分布式文件系统 (Hadoop Distributed File System),简称HDFS。HDFS有高 容错性 的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问 应用程序 的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 [2] 中文名 海杜普 外文名 Hadoop 类 别 电脑程序 全 称 Hadoop Distributed File System 目录 1 起源 ▪ 项目起源 ▪

大数据(bigdata)练习题

試著忘記壹切 提交于 2019-12-08 16:39:46
1. 在 HDFS 文件系统的根目录下创建递归目录“ 1daoyun/file ”,将附件中的 BigDataSkills.txt 文件,上传到 1daoyun/file 目录中,使用相关命令查看文件系统中 1daoyun/file 目录的文件列表信息。 答: [root@master MapReduce]# hadoop fs -mkdir -p /1daoyun/file [root@master MapReduce]# hadoop fs -put BigDataSkills.txt /1daoyun/file [root@master MapReduce]# hadoop fs -ls /1daoyun/file Found 1 items -rw-r--r-- 3 root hdfs 1175 2018-02-12 08:01 /1daoyun/file/BigDataSkills.txt 2. 在 HDFS 文件系统的根目录下创建递归目录“ 1daoyun/file ”,将附件中的 BigDataSkills.txt 文件,上传到 1daoyun/file 目录中,上传过程指定 BigDataSkills.txt 文件在 HDFS 文件系统中的复制因子为 2 ,并使用 fsck 工具检查存储块的副本数。 答: [root@master MapReduce]#

【翻译笔记】Hadoop分布式文件系统

我与影子孤独终老i 提交于 2019-12-06 20:31:17
摘要 Hadoop分布式文件系统(HDFS)设计用来可靠的存储超大数据集,同时以高速带宽将数据集传输给用户应用。 在一个超大集群中,数以千计的服务器直接接触存储器和执行用户应用任务。 通过许多服务器的分布式存储和计算,资源随需求增长的时候仍然可以保持经济性。 我们解释了HDFS架构,同时介绍了我们在雅虎使用HDFS去管理25PB企业数据的经验。 1、介绍和相关工作 Hadoop 的 一个重要特点是将数据和计算能力划分为小部分,通过许多(数千)主机运行 ,这些主机并行计算得到他们的结果。一个 Hadoop 集群通过简单增加商用服务器的数量来扩展其计算能力,存储能力和 IO 带宽。 1.1、与其他分布式系统的异同点 相同点 HDFS 分别存储文件系统元数据和应用程序数据。 与在 其他分布式文件系统 中相同, 比如 PVFS 【 2 】【 14 】, Lustre 【 7 】和 GFS 【 5 】【 8 】, HDFS 在一个专门的服务器存储元数据,这个服务器被称为名称节点。应用程序数据存储在其他被称为数据结点的服务器上。 不同点 HDFS中的数据节点 并不使用数据保护机制 比如RAID( 独立磁盘冗余阵列 ),以确保数据持久性。 相反。比如GFS, 其文件内容在多个数据节点是重复的以确保可靠性 。 这个策略不仅仅可以确保数据持久性,还有额外的优点:数据变形带宽加倍

Centos7安装Hadoop2.7

我只是一个虾纸丫 提交于 2019-12-06 16:35:02
准备 1、三台Centos7的机器,在/etc/hosts中都加上所有的hostname解析: 172.20.0.4  node1 172.20.0.5  node2 172.20.0.6  node3 2、配置node1到三台机器的免密登录 3、全部安装jdk8 4、官网下载安装包:hadoop-2.7.7.tar.gz(推荐中国科学技术大学开源镜像:http://mirrors.ustc.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz) 5、计划:node1作为namenode和datanode,node2和node3作为datanode 配置 三台都创建路径/mydata/,并配置环境变量: export HADOOP_HOME=/mydata/hadoop-2.7.7 export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH 下面在node1上修改hadoop的配置,解压hadoop-2.7.7.tar.gz到/mydata/,进入/mydata/hadoop-2.7.7/etc/hadoop/,修改以下文件(有些文件需要去掉,template后缀,或拷贝一份重命名): <!-- 文件名 core-site.xml -->

HDFS——复习整理

拈花ヽ惹草 提交于 2019-12-06 13:31:23
HDFS——复习整理 一、问题 分布式文件系统那么多,为什么hadoop项目中还要开发一个分布式文件系统呢? 二、存储模型 文件线性字节切割成块(Block),具有offset,id 文件与文件的block大小可以不一样 一个文件除了最后一个block,其他block大小一致 block大小依据硬件I/O进行调整 block被分散存放在集群节点中,具有location block具有副本(replication),没有主从概念,副本不能出现在同一个节点 副本是满足可靠性和性能的关键 文件上传可以指定block大小和副本数,上传后只能修改副本数 一次写入多次读取,不支持修改 支持追加数据 三、架构设计 HDFS是一个主从(Master/Slaves)架构 由一个NameNode和一些DataNode组成 面向文件包含:文件数据(data)和文件元数据(metadata) NameNode负责存储和管理文件元数据,并且维护了一个层次性文件目录树 DataNode负责存储文件数据(block块),并提供block读写 DataNode与NameNode维持心跳,并汇报自己持有的block信息 Client和NameNode交互文件元数据和DataNode交互文件block数据 HDFS Architecture Replication 四、角色功能 NameNode

Hadoop中HDFS的工作原理

橙三吉。 提交于 2019-12-06 10:16:18
HDFS (Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统( 中文 , 英文 )。 HDFS有很多特点 : ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。(商用机) ③ 适合大数据的处理。多大?多小?HDFS默认会将文件分割成block,64M为1个block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中。如果小文件太多,那内存的负担会很重。 如上图所示,HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。 NameNode :是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间; SecondaryNameNode :是一个小弟,分担大哥namenode的工作量;是NameNode的冷备份;合并fsimage和fsedits然后再发给namenode。 DataNode :Slave 节点,奴隶,干活的。负责存储client发来的数据块block;执行数据块的读写操作。 热备份 :b是a的热备份,如果a坏掉

HDFS常用命令总结

拟墨画扇 提交于 2019-12-06 08:32:23
执行以下命令需要在hadoop安装目录下的bin目录中执行,比如我的安装路径是/opt/module/hadoop-2.7.2,那么就在/opt/module/hadoop-2.7.2/bin目录下执行。 1. -help:显示帮助信息 hadoop fs -help rm 2. -ls:显示目录信息 hadoop fs -ls / 3. -mkdir:在HDFS上创建 目录 hadoop fs -mkdir -p /user/ysir 4. -moveFromLocal:从本地剪切粘贴到HDFS hadoop fs -moveFromLocal ~/test.txt /home/ysir/ 5. -appendToFile:追加一个文件到已经存在的文件末尾 hadoop fs -appendToFile /a.txt /b.txt 6. -cat:显示文件内容 hadoop fs -cat /user/ysir/a.txt 7. -chmod、-chown:修改文件权限、所有者 hadoop fs -chmod 777 /a.txthadoop fs -chown admin:ysir /a.txt 8. -copyFromLocal:从本地文件系统中拷贝文件到HDFS中 hadoop fs -copyFromLocal a.txt / 9. copyToLocal

Hadoop — HDFS的概念、原理及基本操作

旧城冷巷雨未停 提交于 2019-12-06 06:12:05
Hadoop — HDFS的概念、原理及基本操作 https://www.cnblogs.com/swordfall/p/8709025.html 分类: Hadoop undefined 1. HDFS的基本概念和特性 设计思想——分而治之:将大文件、大批量文件分布式存放在大量服务器上, 以便于采取分而治之的方式对海量数据进行运算分析 。在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,....)提供数据存储服务。 1.1 HDFS的概念 首先,它是一个文件系统,用于存储文件,通过统一的命名空间--目录树来定位文件; 其次,它是分布式的,有很多服务器联合起来实现其功能,集群中的服务器有各自的角色; 重点概念:文件切块,副本存放,元数据(目录结构及文件分块信息) 1.2 HDFS的重要特性 (1) HDFS中的文件在物理上是 分块存储(block) ,块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M; (2) HDFS文件系统会给客户端提供一个 统一的抽象目录树 ,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/file.data; (3) 目录结构及文件分块信息(元数据) 的管理由namenode节点承担

Hadoop_简介_01

旧巷老猫 提交于 2019-12-06 03:23:46
1. Apache Hadoop    1.1 Hadoop介绍     Hadoop是Apache旗下的一个用 java 语言实现的开源软件框架, 是一个开发和运行处理大规模数据的软件平台. 允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理 . Hadoop不会跟某种具体的行业或者某个具体的业务挂钩, 他只是一种用来做海量数据分析处理的工具.          狭义上说, Hadoop指Apache这款开源框架, 其核心组件有:       HDFS (分布式文件系统) : 解决海量数据存储       YARN (作业调度和集群资源管理的框架) : 解决资源任务调度       MAPREDUCE (分布式运算编程框架) : 解决海量数据计算     广义上说, Hadoop通常是指一个更广泛的概念 -- Hadoop生态圈.          当下的Hadoop已经成长为一个庞大的 体系 .     HDFS: 分布式文件系统     MAPREDUCE: 分布式运算程序开发框架     HIVE: 基于Hadoop的分布式数据仓库, 提供基于SQL的查询数据操作     HBASE: 基于Hadoop的分布式海量数据数据库     ZOOKEEPER: 分布式协调服务基础组件     Mahout: 基于MR / Spark /

HDFS的Shell、java操作

大城市里の小女人 提交于 2019-12-06 02:35:34
HDFS的Shell操作 1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2.命令大全 [Tesla@hadoop102 hadoop-2.7.2]$ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p] <localsrc> ... <dst>] [-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-count [-q] <path> ...] [-cp [-f] [-p] <src> ... <dst>] [-createSnapshot <snapshotDir> [<snapshotName>]] [-deleteSnapshot <snapshotDir> <snapshotName>] [-df