hdfs命令

分布式存储系统-HDFS

浪尽此生 提交于 2019-11-27 10:30:27
HDFS作为分布式文件管理系统,Hadoop的基础。HDFS体系机构包括:NameNode、DataNode、SecondaryNameNode。Hadoop shell上传的文件是存放在DataNode的block中,通过linux shell只能看到block,不能看到文件。 以下是本章的重点: 分布式文件系统与HDFS HDFS体系结构与基本概念 HDFS的shell操作 搭建eclipse开发环境 Java接口及常用api Hadoop的RPC机制 Hadoop读写数据的过程分析 1.分布式文件系统与HDFS DFS:Distributed File System 分布式文件管理系统:数据量越来越多,在一个操作系统管辖的范围存不下,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件。分布式文件管理系统就是一种允许文件通过网络在 多台主机 上分享的文件系统,可让 多机器 上的 多用户 分享文件和存储空间。 HDFS只是DFS中的一种,适应于 一次写、多次查询 的情况,不支持并发写情况,小文件不合适。HDFS:把客户端的大文件存放在很多节点的数据块中,记住三个关键词:文件、节点、数据块。 更简单的一点来说:HDFS就是windows中存在的文件系统。 2. HDFS的shell操作 HDFS是存取数据的分布式文件系统

HDFS 命令

北战南征 提交于 2019-11-27 10:24:23
删除文件夹:hdfs dfs -rm -r directory 删除文件: hdfs dfs -rm filepath 更改文件所有者:hdfs dfs -chown -R userName filepath 更改文件所属组:hdfs dfs -chgrp -R groupName filePath 修改文件访问权限:hdfs dfs -chmod -R 755 filePath 来源: https://www.cnblogs.com/codefeng/p/11359329.html

Hadoop中级之Sqoop

家住魔仙堡 提交于 2019-11-27 09:22:26
sqoop数据迁移 概述 sqoop是apache旗下一款 “ Hadoop 和关系数据库服务器之间传送数据” 的工具。 导入数据 :MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据: 从Hadoop的文件系统中导出数据到关系数据库 工作机制 将导入或导出命令翻译成mapreduce程序来实现 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制 sqoop实战及原理 sqoop安装 安装sqoop的前提是已经具备java和hadoop的环境 1、下载并解压 最新版下载地址http://ftp.wayne.edu/apache/sqoop/1.4.6/ 2、修改配置文件 $ cd $SQOOP_HOME/conf $ mv sqoop-env-template.sh sqoop-env.sh 打开sqoop-env.sh并编辑下面几行: export HADOOP_COMMON_HOME=/home/pirate/programs/hadoop export HADOOP_MAPRED_HOME=/home/pirate/programs/hadoop export HIVE_HOME=/home/pirate/programs/hive 3、加入mysql的jdbc驱动包

hadoop2.7.7+habse2.0.5+zookeeper3.4.14+hive2.3.5单机安装

青春壹個敷衍的年華 提交于 2019-11-27 09:10:26
环境 腾讯云centos7 1、hadoop下载 http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 2、解压 tar -xvf hadoop-2.7.7.tar.gz -C /usr/java 3、修改hadoop-2.7.7/etc/hadoop/ hadoop-env.sh 文件 将jdk环境添加进去: # The java implementation to use. export JAVA_HOME=/usr/java/jdk1.8 4、添加hadoop环境变量 HADOOP_HOME=/usr/java/hadoop-2.7.7 MAVEN_HOME=/usr/java/maven3.6 RABBITMQ_HOME=/usr/java/rabbitmq_server TOMCAT_HOME=/usr/java/tomcat8.5 JAVA_HOME=/usr/java/jdk1.8 CLASSPATH=$JAVA_HOME/lib/ PATH=$PATH:$JAVA_HOME/bin:$TOMCAT_HOME/bin:$RABBITMQ_HOME/sbin:$MAVEN_HOME/bin:$HADOOP_HOME/bin export PATH JAVA_HOME

Hadoop之HDFS(DataNode) (面试开发重点)

北慕城南 提交于 2019-11-27 09:00:43
1 D ata N ode 工作 机制 DataNode 工作机制,如图 所示。 1 ) 一个 数据块在 DataNode上 以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据 的 校验和,以及 时间戳 。 2 ) DataNode启动 后向 NameNode 注册 ,通过后,周期性( 1 小时 ) 的 向 NameNode 上报所有的块信息。 3 ) 心跳 是每 3 秒 一次,心跳返回结果带有 NameNode 给该 DataNode 的命令如 复制 块数据到另一台机器,或删除某个数据块 。 如果 超过 10 分钟 没有收到某个 DataNode 的心跳,则认为该节点不可用。 4 ) 集群 运行中 可以 安全加入和退出一些机器 。 2 数据 完整性 思考 :如果电脑 磁盘 里面存储的数据是控制 高铁信号 灯的红灯信号 ( 1 )和 绿灯信号 ( 0 ) , 但是存储 该数据的 磁盘 坏了,一直显示 是 绿灯 ,是否 很危险? 同理DataNode节点 上的数据损坏了, 却 没有发现,是否也很危险, 那么 如何 解决呢 ? 如下 是 DataNode 节点保证数据完整性的方法。 1 ) 当DataNode 读取 Block 的时候,它会计算 CheckSum 。 2 ) 如果 计算后的 CheckSum ,与 Block 创建时值不一样,说明

Hadoop之HDFS(NameNode和SecondaryNameNode) *

爷,独闯天下 提交于 2019-11-27 08:59:44
NameNode 和 SecondaryNameNode (面试开发 重点 ) 1 NN 和 2 N N 工作机制 思考 : NameNode 中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦 断电 ,元数据丢失,整个集群就无法工作了 。 因此 产生在 磁盘中备份 元数据 的 FsImage 。 这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新 FsImage ,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode 节点 断电 ,就会产生数据丢失。 因此,引入 Edits 文件 ( 只进行追加操作,效率很高 ) 。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到 Edits 中。 这样,一旦 NameNode 节点断电,可以通过 FsImage 和 Edits 的合并,合成元数据。 但是,如果长时间添加数据到 Edits 中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。因此,需要定期进行 FsImage 和 Edits 的合并,如果这个操作 由NameNode 节点完成,又会效率过低。 因此,引入一个新的节点 SecondaryNamenode

Hadoop之HDFS(概述和Shell操作)

删除回忆录丶 提交于 2019-11-27 08:56:40
HDFS 概述 HDFS组成架构 HDFS文 件块大小 HDFS 的 Shell 操作(开发 重点 ) 1 .基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs 是 fs 的 实现 类。 2.命令 大全 $ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p] <localsrc> ... <dst>] [-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-count [-q] <path> ...] [-cp [-f] [-p] <src> ... <dst>] [-createSnapshot <snapshotDir> [<snapshotName>]] [-deleteSnapshot <snapshotDir>

[kylin] 部署kylin服务

落花浮王杯 提交于 2019-11-27 07:04:17
官网: http://kylin.apache.org/ 社区: https://github.com/KylinOLAP/Kylin/issues http://apache-kylin.74782.x6.nabble.com/ 源码: https://github.com/apache/kylin 博客: Apache Kylin的快速数据立方体算法 Apache Kylin (v1.5.0) 发布,全新设计的新一代 Apache基金会宣布Apache Kylin成为顶级项目 逐层(By Level)算法 VS 逐块(By Split) 算法 Kylin正式发布:面向大数据的终极OLAP引擎方案 Apache Kylin在百度地图的实践 京东王晓雨:Apache Kylin在云海的实践 一、工具准备 zookeeper3.4.6 (hadoop、hbase 管理工具) Hadoop.2.7.1 Hbase1.1.4 Kylin1.5.0-HBase1.1.3 Jdk1.7.80 Hive 2.0.0 二、虚拟主机 192.168.200.165 master1 192.168.200.166 master2 192.168.200.167 slave1 192.168.200.168 slave2 三、安装mysql 查看是否安装了 mysql ( master1 )

Hadoop-HDFS分布式环境

百般思念 提交于 2019-11-27 06:26:42
HDFS 简单介绍 HDFS 的英文全称是Hadoop Distributed File System,顾名思义,就是 Hadoop 分布式文件系统,是根据 Google 的 GFS 的论文,由 Doug Cutting 使用 Java 开发的开源项目。 HDFS 本身是 H adoop 项目的一部分,为 Hadoop 提供了底层的数据存储,以供上层的各种实际应用使用(如 Map/Reduce )。 HDFS 是典型的 Master/Slave 集群架构,由一个 NameNode 和多个 DataNode 组成, NameNode 只能是一个,扮演着 Master 的角色,负责对具体存储块的元数据进行保存,如某个存储块具体保存在哪个 DataNode 上; DataNode 可以为多个,扮演着 Slave 的角色,负责对具体的存储块进行保存,一个相同的存储块根据配置可以保存到多个 DataNode 上,以保持数据的高可用性。客户端与 HDFS 交互时,典型的,会先询问 NameNode 具体的存储块在哪个 DataNode 上,然后客户端会直接联系相应的 DataNode ,来获取或写入数据。各个 DataNode 会定时发送心跳至 NameNode ,以便 NameNode 了解 DataNode 的可用状态及存储状态,这样可以保证某一个 DataNode 挂掉,

腾讯云+阿里云 搭建hadoop + hbase

时间秒杀一切 提交于 2019-11-27 02:30:25
目录 服务器配置 hadoop hbase JAVA测试 历时两天,踩了无数坑最后搭建成功。。。 准备 两台服务器都安装jdk1.8(最好装在相同路径)。 hadoop 下载 hbase 下载 这里使用hadoop-2.7.3和hbase1.2.4 服务器配置 以下1-3步骤中两台服务器都要配置 1、修改hostname 主节点修改成master 从节点修改成slave1 使用命令:vim /etc/hostname master # or slave1 重启服务器:reboot 2、修改服务器hosts 假如主节点是阿里云。则在阿里配置 命令: vi /etc/hosts ip master ip1 slave1 其中 ip=阿里的内网ip;ip1=腾讯的外网ip 在腾讯配置 ip master ip1 slave1 其中 ip=阿里的外网ip;ip1=腾讯的内网ip。 3、安装jdk1.8,并配置环境变量 4、ssh配置(master主机) 输入命令生成密匙对 ssh-keygen -t rsa 一路回车 上述命令将在/root/.ssh目录下生成公钥文件id_rsa.pub。将此文件拷贝到.ssh目录下的authorized_keys: cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys 使用ssh登录本机