hdfs命令

hadoop(三)伪分布模式hdfs文件处理|5

匿名 (未验证) 提交于 2019-12-03 00:08:02
伪分布模式hdfs 1.启动hsfs 2. 编辑vi hadoop-env.sh image.png image.png 3.配置nameNode和生产文件第地址 [shaozhiqi@hadoop101 hadoop]$ vi core-site.xml 指定HDFS中NameNode的地址 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop101:9000</value> </property> <!--指定hadoop运行时产生的临时文件存储的目录--> <property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-3.1.2/data/tmp</value> </property> </configuration> 4.指定HDFS的副本数 [shaozhiqi@hadoop101 hadoop]$ vi hdfs-site.xml <property> <name>dfs.replication</name> <value>1</value> </property> 只有一个节点的话相同数据只存放一份,配置三没用,照样存储一份 启动hdfs 1. 格式化nameNode image.png

HDFS集群中DataNode的上线与下线

匿名 (未验证) 提交于 2019-12-02 23:59:01
在HDFS集群的运维过程中,肯定会遇到DataNode的新增和删除,即上线与下线。这篇文章就详细讲解下DataNode的上线和下线的过程。 在我们的微职位视频课程中,我们已经安装了3个节点的HDFS集群,master机器上安装了NameNode和SecondaryNameNode角色,slave1和slave2两台机器上分别都安装了DataNode角色。 我们现在来给这个HDFS集群新增一个DataNode,这个DataNode是安装在master机器上 我们需要说明的是:在实际环境中,NameNode和DataNode最好是不在一台机器上的,我们这里都放在master上,是因为我们的虚拟机资源有限。 在NameNode所在的机器(master)上的配置文件hdfs-site.xml中增加"白名单"配置: <property> <!-- 白名单信息--> <name>dfs.hosts</name> <value>/home/hadoop-twq/bigdata/hadoop-2.7.5/etc/hadoop/dfs.include</value> </property>   在master机器上执行下面的命令: ## 创建白名单文件 touch /home/hadoop-twq/bigdata/hadoop-2.7.5/etc/hadoop/dfs.include   在

hdfs的balancer

匿名 (未验证) 提交于 2019-12-02 23:56:01
参考: https://blog.csdn.net/mnasd/article/details/80369603 在CDH中选一个资源多的节点,安装 HDFS->添加角色到实例 启动后状态是灰的 在做平衡之前,可做相关参数调整: 在hdfs的配置中输入balancer dfs.datanode.balance.max.concurrent.moves #默认50 dfs.balancer.max-size-to-move 10G #各节点差异超过10G就平衡 Balancer 的 Java 堆栈大小 默认1G #可增加到2G 不过没关系,点进去在操作中选择重新平衡 实际上就是在该节点上运行hdfs.sh balancer. 注: 也可在该节点上手动执行命令: hdfs balancer -policy datanode -threshold 30 -include -f /tmp/hdfs-blancer.txt #tmp/hdfs-blancer.txt 写上想要执行平衡节点的hostname. 来源:博客园 作者: 锋锋2019 链接:https://www.cnblogs.com/hongfeng2019/p/11435176.html

Hadoop详解 - HDFS - MapReduce - YARN - HA

匿名 (未验证) 提交于 2019-12-02 23:55:01
为什么要有Hadoop? 结构的数据,并且这些海量的数据存储和检索就成为了一大问题。 Hadoop就是为了解决这些问题而出现的。 Hadoop的诞生 Doug Cutting等人就去研究这三篇论文,发现价值巨大,于是Doug Cutting等人在Nutch上实现了GFS和Map-Reduce,使得Nutch的性能飙升。 这三篇论文对应Hadoop的组件: 什么是Hadoop? 技术生态圈 之一。 Hadoop发行版本 1、Apache版本最原始的版本 2、Clodera版本,在大型互联网企业中用的比较多,软件免费,通过服务收费。 3、Hortonworks文档比较好 特点 高可靠: 维护多个副本,假设计算元素和存储出现故障时,可以对失败节点重新分布处理 高扩展: 在集群间分配任务数据,可方便的扩展数以千计的节点 高效性: 并行工作 高容错: 自动保存多个副本,并且能够对失败任务重新分配 Hadoop组成 HDFS:一个高可靠高吞吐量的分布式文件系统 :存储文件的元数据,如:文件名、文件目录结构等信息 DataNode(dn) : 在文件系统存储文件块数据,以及数据的校验和,也就是真正存储文件内容的,只是文件大的时候会切割成一小块一小块的。 SecondayNameNode(2nn) : 用于监控HDFS状态的辅助后台程序,每隔一段时间就获取HDFS的快照,就是备份和监控状态

Hadoop之HDFS(概述和Shell操作)

匿名 (未验证) 提交于 2019-12-02 23:54:01
HDFS HDFS组成架构 HDFS文 件块大小 HDFS Shell ) 1 bin/hadoop fs dfsfs实现 2.命令 $ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p] <localsrc> ... <dst>] [-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-count [-q] <path> ...] [-cp [-f] [-p] <src> ... <dst>] [-createSnapshot <snapshotDir> [<snapshotName>]] [-deleteSnapshot <snapshotDir> <snapshotName>] [-df [-h] [<path> ...]] [-du [-s] [-h] <path> .

Sqoop

匿名 (未验证) 提交于 2019-12-02 23:52:01
大数据技术之Sqoop 一、 Sqoop 简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。 请注意,1.99.7与1.4.6不兼容,且没有特征不完整,它并不打算用于生产部署。 二、 Sqoop 原理 将导入或导出命令翻译成mapreduce程序来实现。 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 三、 Sqoop 安装 安装Sqoop的前提是已经具备Java和Hadoop的环境。 3.1、下载并解压 1) 最新版下载地址: http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2) 上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中,如我的上传目录是:/opt/software/ 3) 解压sqoop安装包到指定目录,如: $ tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/ 3.2、修改配置文件 Sqoop的配置文件与大多数大数据框架类似,在sqoop根目录下的conf目录中。 1)

Hadoop高可用

匿名 (未验证) 提交于 2019-12-02 23:52:01
大数据Hadoop HDFS 一 HDFS 1.1 概念 HDFS ,全称: Hadoop Distributed File System ,用于存储文件通过目录树来定位文件; 其次,它是分布式的 ,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 1 . 2 1HDFS NameNode DataNode Secondary Namenode 2NameNode 3DataNode datanode 4Secondary NameNode用来HDFS HDFS 1 . 3 HDFS 文件 HDFS block ( dfs.blocksize) hadoop2.x 128M 64M HDFS块时间块时间, 10ms,而100MB/s,ʹ1%100MB。的128MB 块10ms*100*100M/s = 100M HFDS 命令行操作 1 bin/hadoop fs 具体命令 2)参数 bin/hadoop fs [-appendToFile <localsrc> ... <dst>] 3实操 1-help: bin/hdfs dfs -help rm 2 hadoop fs -ls / 3-mkdir hdfs (4-moveFromLocal hdfs /hdfs 5追加一个文件到已经存在的文件末尾 /hdfs 6-cat hadoop fs -cat /hdfs 7

Hadoop的API

匿名 (未验证) 提交于 2019-12-02 23:52:01
大数据Hadoop HDFS 一 HDFS 1.1 概念 HDFS ,全称: Hadoop Distributed File System ,用于存储文件通过目录树来定位文件; 其次,它是分布式的 ,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 1 . 2 1HDFS NameNode DataNode Secondary Namenode 2NameNode 3DataNode datanode 4Secondary NameNode用来HDFS HDFS 1 . 3 HDFS 文件 HDFS block ( dfs.blocksize) hadoop2.x 128M 64M HDFS块时间块时间, 10ms,而100MB/s,ʹ1%100MB。的128MB 块10ms*100*100M/s = 100M HFDS 命令行操作 1 bin/hadoop fs 具体命令 2)参数 bin/hadoop fs [-appendToFile <localsrc> ... <dst>] 3实操 1-help: bin/hdfs dfs -help rm 2 hadoop fs -ls / 3-mkdir hdfs (4-moveFromLocal hdfs /hdfs 5追加一个文件到已经存在的文件末尾 /hdfs 6-cat hadoop fs -cat /hdfs 7

Hadoop多次format格式化会导致节点的clusterID不一致

匿名 (未验证) 提交于 2019-12-02 23:34:01
1. 使用环境 vmware配置的3个Centos7虚拟机,一个master,2个slave 2. 问题描述 hadoop 多次格式化format namenode 导致节点不能启动 出现这个问题的原因是多次格式化会导致节点的clusterID不一致 3. 解决方法 (1)先停止所有启动的服务 /usr/local/hadoop/sbin/stop-all.sh (2)删除core-site.xml 和hdfs-site.xml文件中配置的文件夹 (注意:这一步在三台机器上都要做) rm -r /usr/local/hadoop/tmp 其他两条命令类似,进入hdfs文件夹下,删除name和data文件夹,命令和上面的一样 注意:可以通过core-site.xml和hdfs-site.xml中的配置文件查看文件的相应位置 core-site.xml hdfs-site.xml (3)重新格式化 hadoop namenode -format (4)启动服务 使用 ./start-all.sh or ./start-dfs.sh 两个命令启动服务,再使用jps查看是不是namnode 和datanode都已经启动 datanode1: datanode2: master: 文章来源: https://blog.csdn.net/qq_28303495/article/details

Sqoop-1.4.7安装配置及Mysql-&gt;HDFS-&gt;Hive数据导入(基于Hadoop2.6.5)

匿名 (未验证) 提交于 2019-12-02 22:06:11
写在前面 本博客基于的环境如下: OS版本: centos7.5 Hadoop版本: Hadoop-2.6.5 Hive版本: Hive-1.2.2 Sqoop版本: Sqoop-1.4.7 一、Sqoop安装 1、下载 下载版本:sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 压缩包存放位置:/usr/local/src/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 注意注意:需要下载的是sqoop**_hadoop**这个版本,而不是sqoop-1.4.7.tar.gz 2、解压 我们这里讲sqoop安装到/usr/local/src/下,下面将其解压到这个目录下,使用下面的命令: cd /usr/local/src tar -xzvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 解压之后的目录文件为/usr/local/src/sqoop-1.4.7.bin__hadoop-2.6.0,文件夹名称比较长,使用下面的命令重命名文件夹: cd /usr/local/src mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop-1.4.7 3、配置环境变量 使用`sudo vi ~/.bashrc`打开配置文件,使用下面的语句配置环境变量: export SQOOP_HOME