hdfs命令 | 易学教程

hadoop(三)伪分布模式hdfs文件处理|5

阅读更多关于 hadoop(三)伪分布模式hdfs文件处理|5

伪分布模式hdfs 1.启动hsfs 2. 编辑vi hadoop-env.sh image.png image.png 3.配置nameNode和生产文件第地址 [shaozhiqi@hadoop101 hadoop]$ vi core-site.xml 指定HDFS中NameNode的地址 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop101:9000</value> </property>  <property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-3.1.2/data/tmp</value> </property> </configuration> 4.指定HDFS的副本数 [shaozhiqi@hadoop101 hadoop]$ vi hdfs-site.xml <property> <name>dfs.replication</name> <value>1</value> </property> 只有一个节点的话相同数据只存放一份，配置三没用，照样存储一份启动hdfs 1. 格式化nameNode image.png

HDFS集群中DataNode的上线与下线

阅读更多关于 HDFS集群中DataNode的上线与下线

在HDFS集群的运维过程中，肯定会遇到DataNode的新增和删除，即上线与下线。这篇文章就详细讲解下DataNode的上线和下线的过程。在我们的微职位视频课程中，我们已经安装了3个节点的HDFS集群，master机器上安装了NameNode和SecondaryNameNode角色，slave1和slave2两台机器上分别都安装了DataNode角色。我们现在来给这个HDFS集群新增一个DataNode，这个DataNode是安装在master机器上我们需要说明的是：在实际环境中，NameNode和DataNode最好是不在一台机器上的，我们这里都放在master上，是因为我们的虚拟机资源有限。在NameNode所在的机器(master)上的配置文件hdfs-site.xml中增加"白名单"配置: <property>  <name>dfs.hosts</name> <value>/home/hadoop-twq/bigdata/hadoop-2.7.5/etc/hadoop/dfs.include</value> </property> 　　在master机器上执行下面的命令： ## 创建白名单文件 touch /home/hadoop-twq/bigdata/hadoop-2.7.5/etc/hadoop/dfs.include 　　在

hdfs的balancer

阅读更多关于 hdfs的balancer

参考: https://blog.csdn.net/mnasd/article/details/80369603 在CDH中选一个资源多的节点,安装 HDFS->添加角色到实例启动后状态是灰的在做平衡之前,可做相关参数调整: 在hdfs的配置中输入balancer dfs.datanode.balance.max.concurrent.moves #默认50 dfs.balancer.max-size-to-move 10G #各节点差异超过10G就平衡 Balancer 的 Java 堆栈大小默认1G #可增加到2G 不过没关系,点进去在操作中选择重新平衡实际上就是在该节点上运行hdfs.sh balancer. 注: 也可在该节点上手动执行命令: hdfs balancer -policy datanode -threshold 30 -include -f /tmp/hdfs-blancer.txt #tmp/hdfs-blancer.txt 写上想要执行平衡节点的hostname. 来源：博客园作者：锋锋2019 链接：https://www.cnblogs.com/hongfeng2019/p/11435176.html

Hadoop详解 - HDFS - MapReduce - YARN - HA

阅读更多关于 Hadoop详解 - HDFS - MapReduce - YARN - HA

为什么要有Hadoop？结构的数据，并且这些海量的数据存储和检索就成为了一大问题。 Hadoop就是为了解决这些问题而出现的。 Hadoop的诞生 Doug Cutting等人就去研究这三篇论文，发现价值巨大，于是Doug Cutting等人在Nutch上实现了GFS和Map-Reduce，使得Nutch的性能飙升。这三篇论文对应Hadoop的组件：什么是Hadoop？技术生态圈之一。 Hadoop发行版本 1、Apache版本最原始的版本 2、Clodera版本，在大型互联网企业中用的比较多，软件免费，通过服务收费。 3、Hortonworks文档比较好特点高可靠：维护多个副本，假设计算元素和存储出现故障时，可以对失败节点重新分布处理高扩展：在集群间分配任务数据，可方便的扩展数以千计的节点高效性：并行工作高容错：自动保存多个副本，并且能够对失败任务重新分配 Hadoop组成 HDFS：一个高可靠高吞吐量的分布式文件系统：存储文件的元数据，如：文件名、文件目录结构等信息 DataNode(dn) ：在文件系统存储文件块数据，以及数据的校验和，也就是真正存储文件内容的，只是文件大的时候会切割成一小块一小块的。 SecondayNameNode(2nn) ：用于监控HDFS状态的辅助后台程序，每隔一段时间就获取HDFS的快照，就是备份和监控状态

Hadoop之HDFS(概述和Shell操作)

阅读更多关于 Hadoop之HDFS(概述和Shell操作)

HDFS HDFS组成架构 HDFS文件块大小 HDFS Shell ） 1 bin/hadoop fs dfsfs实现 2．命令 $ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p] <localsrc> ... <dst>] [-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-count [-q] <path> ...] [-cp [-f] [-p] <src> ... <dst>] [-createSnapshot <snapshotDir> [<snapshotName>]] [-deleteSnapshot <snapshotDir> <snapshotName>] [-df [-h] [<path> ...]] [-du [-s] [-h] <path> .

Sqoop

阅读更多关于 Sqoop

大数据技术之Sqoop 一、 Sqoop 简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来，现在是一个顶级的Apache项目。请注意，1.99.7与1.4.6不兼容，且没有特征不完整，它并不打算用于生产部署。二、 Sqoop 原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。三、 Sqoop 安装安装Sqoop的前提是已经具备Java和Hadoop的环境。 3.1、下载并解压 1) 最新版下载地址： http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2) 上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中，如我的上传目录是：/opt/software/ 3) 解压sqoop安装包到指定目录，如： $ tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/ 3.2、修改配置文件 Sqoop的配置文件与大多数大数据框架类似，在sqoop根目录下的conf目录中。 1)

Hadoop高可用

阅读更多关于 Hadoop高可用

大数据Hadoop HDFS 一 HDFS 1.1 概念 HDFS ，全称： Hadoop Distributed File System ，用于存储文件通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。 1 . 2 1HDFS NameNode DataNode Secondary Namenode 2NameNode 3DataNode datanode 4Secondary NameNode用来HDFS HDFS 1 . 3 HDFS 文件 HDFS block ( dfs.blocksize) hadoop2.x 128M 64M HDFS块时间块时间， 10ms，而100MB/s，ʹ1%100MB。的128MB 块10ms*100*100M/s = 100M HFDS 命令行操作 1 bin/hadoop fs 具体命令 2）参数 bin/hadoop fs [-appendToFile <localsrc> ... <dst>] 3实操 1-help： bin/hdfs dfs -help rm 2 hadoop fs -ls / 3-mkdir hdfs （4-moveFromLocal hdfs /hdfs 5追加一个文件到已经存在的文件末尾 /hdfs 6-cat hadoop fs -cat /hdfs 7

Hadoop的API

阅读更多关于 Hadoop的API

Hadoop多次format格式化会导致节点的clusterID不一致

阅读更多关于 Hadoop多次format格式化会导致节点的clusterID不一致

1. 使用环境 vmware配置的3个Centos7虚拟机，一个master，2个slave 2. 问题描述 hadoop 多次格式化format namenode 导致节点不能启动出现这个问题的原因是多次格式化会导致节点的clusterID不一致 3. 解决方法（1）先停止所有启动的服务 /usr/local/hadoop/sbin/stop-all.sh （2）删除core-site.xml 和hdfs-site.xml文件中配置的文件夹（注意：这一步在三台机器上都要做） rm -r /usr/local/hadoop/tmp 其他两条命令类似，进入hdfs文件夹下，删除name和data文件夹，命令和上面的一样注意：可以通过core-site.xml和hdfs-site.xml中的配置文件查看文件的相应位置 core-site.xml hdfs-site.xml （3）重新格式化 hadoop namenode -format （4）启动服务使用 ./start-all.sh or ./start-dfs.sh 两个命令启动服务，再使用jps查看是不是namnode 和datanode都已经启动 datanode1： datanode2： master：文章来源: https://blog.csdn.net/qq_28303495/article/details

Sqoop-1.4.7安装配置及Mysql->HDFS->Hive数据导入（基于Hadoop2.6.5）

阅读更多关于 Sqoop-1.4.7安装配置及Mysql->HDFS->Hive数据导入（基于Hadoop2.6.5）

写在前面本博客基于的环境如下： OS版本： centos7.5 Hadoop版本： Hadoop-2.6.5 Hive版本： Hive-1.2.2 Sqoop版本： Sqoop-1.4.7 一、Sqoop安装 1、下载下载版本：sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 压缩包存放位置：/usr/local/src/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 注意注意：需要下载的是sqoop**_hadoop**这个版本，而不是sqoop-1.4.7.tar.gz 2、解压我们这里讲sqoop安装到/usr/local/src/下，下面将其解压到这个目录下，使用下面的命令： cd /usr/local/src tar -xzvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 解压之后的目录文件为/usr/local/src/sqoop-1.4.7.bin__hadoop-2.6.0，文件夹名称比较长，使用下面的命令重命名文件夹： cd /usr/local/src mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop-1.4.7 3、配置环境变量使用`sudo vi ~/.bashrc`打开配置文件，使用下面的语句配置环境变量： export SQOOP_HOME

订阅 hdfs命令