hdfs命令 | 易学教程

分布式存储系统-HDFS

阅读更多关于分布式存储系统-HDFS

HDFS作为分布式文件管理系统，Hadoop的基础。HDFS体系机构包括：NameNode、DataNode、SecondaryNameNode。Hadoop shell上传的文件是存放在DataNode的block中，通过linux shell只能看到block，不能看到文件。以下是本章的重点：分布式文件系统与HDFS HDFS体系结构与基本概念 HDFS的shell操作搭建eclipse开发环境 Java接口及常用api Hadoop的RPC机制 Hadoop读写数据的过程分析 1.分布式文件系统与HDFS DFS:Distributed File System 分布式文件管理系统：数据量越来越多，在一个操作系统管辖的范围存不下，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件。分布式文件管理系统就是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。 HDFS只是DFS中的一种，适应于一次写、多次查询的情况，不支持并发写情况，小文件不合适。HDFS：把客户端的大文件存放在很多节点的数据块中，记住三个关键词：文件、节点、数据块。更简单的一点来说：HDFS就是windows中存在的文件系统。 2. HDFS的shell操作 HDFS是存取数据的分布式文件系统

HDFS 命令

阅读更多关于 HDFS 命令

删除文件夹：hdfs dfs -rm -r directory 删除文件： hdfs dfs -rm filepath 更改文件所有者：hdfs dfs -chown -R userName filepath 更改文件所属组：hdfs dfs -chgrp -R groupName filePath 修改文件访问权限：hdfs dfs -chmod -R 755 filePath 来源： https://www.cnblogs.com/codefeng/p/11359329.html

Hadoop中级之Sqoop

阅读更多关于 Hadoop中级之Sqoop

sqoop数据迁移概述 sqoop是apache旗下一款 “ Hadoop 和关系数据库服务器之间传送数据” 的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对inputformat和outputformat进行定制 sqoop实战及原理 sqoop安装安装sqoop的前提是已经具备java和hadoop的环境 1、下载并解压最新版下载地址http://ftp.wayne.edu/apache/sqoop/1.4.6/ 2、修改配置文件 $ cd $SQOOP_HOME/conf $ mv sqoop-env-template.sh sqoop-env.sh 打开sqoop-env.sh并编辑下面几行： export HADOOP_COMMON_HOME=/home/pirate/programs/hadoop export HADOOP_MAPRED_HOME=/home/pirate/programs/hadoop export HIVE_HOME=/home/pirate/programs/hive 3、加入mysql的jdbc驱动包

hadoop2.7.7+habse2.0.5+zookeeper3.4.14+hive2.3.5单机安装

阅读更多关于 hadoop2.7.7+habse2.0.5+zookeeper3.4.14+hive2.3.5单机安装

环境腾讯云centos7 1、hadoop下载 http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 2、解压 tar -xvf hadoop-2.7.7.tar.gz -C /usr/java 3、修改hadoop-2.7.7/etc/hadoop/ hadoop-env.sh 文件将jdk环境添加进去： # The java implementation to use. export JAVA_HOME=/usr/java/jdk1.8 4、添加hadoop环境变量 HADOOP_HOME=/usr/java/hadoop-2.7.7 MAVEN_HOME=/usr/java/maven3.6 RABBITMQ_HOME=/usr/java/rabbitmq_server TOMCAT_HOME=/usr/java/tomcat8.5 JAVA_HOME=/usr/java/jdk1.8 CLASSPATH=$JAVA_HOME/lib/ PATH=$PATH:$JAVA_HOME/bin:$TOMCAT_HOME/bin:$RABBITMQ_HOME/sbin:$MAVEN_HOME/bin:$HADOOP_HOME/bin export PATH JAVA_HOME

Hadoop之HDFS(DataNode) （面试开发重点）

阅读更多关于 Hadoop之HDFS(DataNode) （面试开发重点）

1 D ata N ode 工作机制 DataNode 工作机制，如图所示。 1 ）一个数据块在 DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。 2 ） DataNode启动后向 NameNode 注册，通过后，周期性（ 1 小时）的向 NameNode 上报所有的块信息。 3 ）心跳是每 3 秒一次，心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器，或删除某个数据块。如果超过 10 分钟没有收到某个 DataNode 的心跳，则认为该节点不可用。 4 ）集群运行中可以安全加入和退出一些机器。 2 数据完整性思考：如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号（ 1 ）和绿灯信号（ 0 ），但是存储该数据的磁盘坏了，一直显示是绿灯，是否很危险？同理DataNode节点上的数据损坏了，却没有发现，是否也很危险，那么如何解决呢？如下是 DataNode 节点保证数据完整性的方法。 1 ）当DataNode 读取 Block 的时候，它会计算 CheckSum 。 2 ）如果计算后的 CheckSum ，与 Block 创建时值不一样，说明

Hadoop之HDFS(NameNode和SecondaryNameNode) *

阅读更多关于 Hadoop之HDFS(NameNode和SecondaryNameNode) *

NameNode 和 SecondaryNameNode （面试开发重点） 1 NN 和 2 N N 工作机制思考： NameNode 中的元数据是存储在哪里的？首先，我们做个假设，如果存储在 NameNode 节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的 FsImage 。这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新 FsImage ，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦 NameNode 节点断电，就会产生数据丢失。因此，引入 Edits 文件 ( 只进行追加操作，效率很高 ) 。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到 Edits 中。这样，一旦 NameNode 节点断电，可以通过 FsImage 和 Edits 的合并，合成元数据。但是，如果长时间添加数据到 Edits 中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行 FsImage 和 Edits 的合并，如果这个操作由NameNode 节点完成，又会效率过低。因此，引入一个新的节点 SecondaryNamenode

Hadoop之HDFS(概述和Shell操作)

阅读更多关于 Hadoop之HDFS(概述和Shell操作)

HDFS 概述 HDFS组成架构 HDFS文件块大小 HDFS 的 Shell 操作（开发重点） 1 ．基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs 是 fs 的实现类。 2．命令大全 $ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p] <localsrc> ... <dst>] [-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-count [-q] <path> ...] [-cp [-f] [-p] <src> ... <dst>] [-createSnapshot <snapshotDir> [<snapshotName>]] [-deleteSnapshot <snapshotDir>

[kylin] 部署kylin服务

阅读更多关于 [kylin] 部署kylin服务

官网： http://kylin.apache.org/ 社区： https://github.com/KylinOLAP/Kylin/issues http://apache-kylin.74782.x6.nabble.com/ 源码： https://github.com/apache/kylin 博客： Apache Kylin的快速数据立方体算法 Apache Kylin (v1.5.0) 发布，全新设计的新一代 Apache基金会宣布Apache Kylin成为顶级项目逐层（By Level）算法 VS 逐块(By Split) 算法 Kylin正式发布：面向大数据的终极OLAP引擎方案 Apache Kylin在百度地图的实践京东王晓雨：Apache Kylin在云海的实践一、工具准备 zookeeper3.4.6 （hadoop、hbase 管理工具） Hadoop.2.7.1 Hbase1.1.4 Kylin1.5.0-HBase1.1.3 Jdk1.7.80 Hive 2.0.0 二、虚拟主机 192.168.200.165 master1 192.168.200.166 master2 192.168.200.167 slave1 192.168.200.168 slave2 三、安装mysql 查看是否安装了 mysql （ master1 ）

Hadoop-HDFS分布式环境

阅读更多关于 Hadoop-HDFS分布式环境

HDFS 简单介绍 HDFS 的英文全称是Hadoop Distributed File System，顾名思义，就是 Hadoop 分布式文件系统，是根据 Google 的 GFS 的论文，由 Doug Cutting 使用 Java 开发的开源项目。 HDFS 本身是 H adoop 项目的一部分，为 Hadoop 提供了底层的数据存储，以供上层的各种实际应用使用（如 Map/Reduce ）。 HDFS 是典型的 Master/Slave 集群架构，由一个 NameNode 和多个 DataNode 组成， NameNode 只能是一个，扮演着 Master 的角色，负责对具体存储块的元数据进行保存，如某个存储块具体保存在哪个 DataNode 上； DataNode 可以为多个，扮演着 Slave 的角色，负责对具体的存储块进行保存，一个相同的存储块根据配置可以保存到多个 DataNode 上，以保持数据的高可用性。客户端与 HDFS 交互时，典型的，会先询问 NameNode 具体的存储块在哪个 DataNode 上，然后客户端会直接联系相应的 DataNode ，来获取或写入数据。各个 DataNode 会定时发送心跳至 NameNode ，以便 NameNode 了解 DataNode 的可用状态及存储状态，这样可以保证某一个 DataNode 挂掉，

腾讯云+阿里云搭建hadoop + hbase

阅读更多关于腾讯云+阿里云搭建hadoop + hbase

目录服务器配置 hadoop hbase JAVA测试历时两天，踩了无数坑最后搭建成功。。。准备两台服务器都安装jdk1.8（最好装在相同路径）。 hadoop 下载 hbase 下载这里使用hadoop-2.7.3和hbase1.2.4 服务器配置以下1-3步骤中两台服务器都要配置 1、修改hostname 主节点修改成master 从节点修改成slave1 使用命令：vim /etc/hostname master # or slave1 重启服务器：reboot 2、修改服务器hosts 假如主节点是阿里云。则在阿里配置命令: vi /etc/hosts ip master ip1 slave1 其中 ip=阿里的内网ip；ip1=腾讯的外网ip 在腾讯配置 ip master ip1 slave1 其中 ip=阿里的外网ip；ip1=腾讯的内网ip。 3、安装jdk1.8，并配置环境变量 4、ssh配置（master主机）输入命令生成密匙对 ssh-keygen -t rsa 一路回车上述命令将在/root/.ssh目录下生成公钥文件id_rsa.pub。将此文件拷贝到.ssh目录下的authorized_keys： cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys 使用ssh登录本机

订阅 hdfs命令