hdfs命令

大数据集群环境搭建之一 hadoop-ha高可用安装

我怕爱的太早我们不能终老 提交于 2019-11-30 23:59:13
1、如果你使用 root用户进行安装。 vi /etc/profile 即可 系统变量 2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量 export HADOOP_HOME= /export/servers/hadoop-2.8.5 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin: 同步配置文件 [root@jiang01 servers]# vi /etc/profile [root@jiang01 servers]# [root@jiang01 servers]# xrsync.sh /etc/profile =========== jiang02 : /etc/profile =========== 命令执行成功 =========== jiang03 : /etc/profile =========== 命令执行成功 [root@jiang01 servers]# 刷新配置各个机器配置: source /etc/profile 修改下面各个配置文件: <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the

Sqoop

青春壹個敷衍的年華 提交于 2019-11-30 23:29:14
第1章 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个 Apache 项目。 Sqoop2的最新版本是1.99.7。请注意,2与1不兼容,且特征不完整,它并不打算用于生产部署。 第2章 Sqoop原理 将导入或导出命令翻译成mapreduce程序来实现。 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 第3章 Sqoop安装 安装Sqoop的前提是已经具备Java和Hadoop的环境。 3.1 下载并解压 1) 下载地址: http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2) 上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中 3) 解压sqoop安装包到指定目录,如: $ tar -zxf

Hadoop 之 HDFS

帅比萌擦擦* 提交于 2019-11-30 22:03:07
  1 HDFS 概述   1.1 HDFS 产出背景及定义   随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。   HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。   HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。   1.2 HDFS优缺点   优点:   高容错性   数据自动保存多个副本。它通过增加副本的形式,提高容错性   某一个副本丢失以后,它可以自动恢复   适合处理大数据   可构建在廉价机器上,通过多副本机制,提高可靠性   缺点:   不适合低延时数据访问,比如毫秒级的存储数据   无法高效的对大量小文件进行存储   不支持并发写入、文件随机修改   1.3 HDFS组成架构         1.4 HDFS文件块大小   HDFS 中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在Hadoop2.x

Linux下安装Hadoop(2.7.1)详解及WordCount运行

我们两清 提交于 2019-11-30 20:39:16
一、引言   在完成了Storm的环境配置之后,想着鼓捣一下Hadoop的安装,网上面的教程好多,但是没有一个特别切合的,所以在安装的过程中还是遇到了很多的麻烦,并且最后不断的查阅资料,终于解决了问题,感觉还是很好的,下面废话不多说,开始进入正题。   本机器的配置环境如下:     Hadoop(2.7.1)     Ubuntu Linux(64位系统)   下面分为几个步骤来详解配置过程。 二、安装ssh服务   进入shell命令,输入如下命令,查看是否已经安装好ssh服务,若没有,则使用如下命令进行安装:     sudo apt-get install ssh openssh-server   安装过程还是比较轻松加愉快的。 三、使用ssh进行无密码验证登录   1.创建ssh-key,这里我们采用rsa方式,使用如下命令:     ssh-keygen -t rsa -P ""   2.出现一个图形,出现的图形就是密码,不用管它     cat ~/.ssh/id_rsa.pub >> authorized_keys(好像是可以省略的)   3.然后即可无密码验证登录了,如下:     ssh localhost   成功截图如下:      四、下载Hadoop安装包   下载Hadoop安装也有两种方式     1.直接上官网进行下载, http:/

大数据hadoop 面试经典题

ε祈祈猫儿з 提交于 2019-11-30 18:09:56
1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂) 2.hadoop 的 namenode 宕机,怎么解决 先分析宕机后的损失,宕机后直接导致client无法访问,内存中的元数据丢失,但是硬盘中的元数据应该还存在,如果只是节点挂了, 重启即可,如果是机器挂了,重启机器后看节点是否能重启,不能重启就要找到原因修复了。但是最终的解决方案应该是在设计集群的初期 就考虑到这个问题,做namenode的HA。 3.一个datanode 宕机,怎么一个流程恢复 Datanode宕机了后,如果是短暂的宕机,可以实现写好脚本监控,将它启动起来。如果是长时间宕机了,那么datanode上的数据应该已经 被备份到其他机器了,那这台datanode就是一台新的datanode了,删除他的所有数据文件和状态文件,重新启动。 4.Hbase 的特性,以及你怎么去设计 rowkey 和 columnFamily ,怎么去建一个table 因为hbase是列式数据库,列非表schema的一部分,所以在设计初期只需要考虑rowkey 和 columnFamily即可,rowkey有位置相关性,所以 如果数据是练习查询的,最好对同类数据加一个前缀,而每个columnFamily实际上在底层是一个文件,那么文件越小,查询越快,所以讲经

浅谈HDFS(三)之DataNote

。_饼干妹妹 提交于 2019-11-30 16:51:20
DataNode工作机制 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 DataNode与NameNode之间有一个 心跳事件 ,心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令,如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。 集群运行中可以安全加入和退出一些机器 数据完整性 思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险? 同理,DataNode节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢? 保证数据完整性的方法 当DataNode读取Block的时候,它会计算CheckSum(校验和) 如果计算后的CheckSum,与Block创建时值不一样,说明Block已经损坏 Client读取其他DataNode上的Block DataNode在其文件创建后周期验证CheckSum,如下图: 掉线时参数设置 DataNode进程死亡或者网络故障造成DataNode无法与NameNode通信时的TimeOut参数设置

HDFS笔记

我的梦境 提交于 2019-11-30 15:01:31
HDFS 基于 流数据模式访问 和 处理超大文件 的需求而开发的。 HDFS不适合的应用类型 低延时的数据访问 HDFS是为高吞吐数据传输设计的,因此可能牺牲延时HBase更适合低延时的数据访问。 大量小文件 文件的元数据保存在NameNode的内存中, 整个文件系统的文件数量会受限于NameNode的内存大小。 多方读写,需要任意的文件修改 HDFS采用追加的方式写入数据。不支持文件任意修改。不支持多个写入器(writer)。 相关概念 块(Block) HDFS文件系统的文件被分成块进行存储;HDFS被设计出来就是处理大文件的; 块默认大小:64M;小于一个块大小的文件不会占据整个块的空间; 好处: 它将超大文件分成众多块,分别存储在集群的各个机器上; 简化存储系统:块的大小固定,更利于管理,复制,备份,容错,并且便于元数据去统计、映射; 块的大小可以自行设置,但是必须是64M的整数倍(hdfs-site.xml) <property> <name>dfs.block.size</name> <value>512000</value> </property> 为什么块要设置这么大? 目的是:最小化寻址开销 比如:寻址时间需要10ms 1.块=1M,寻址64M文件,需要640ms 2.块=64M,需要10ms 块的设置不能太大,因为MapReduce任务是按块来处理的,块太大

shell with hadoop

帅比萌擦擦* 提交于 2019-11-30 13:23:16
shell 命令操作 hadoop 之前多少提及过,这里做个总结。 shell with hdfs 基本命令 bin/hadoop fs 大于下面的命令 bin/hdfs dfs dfs 是 fs 的实现类 shell 操作 hadoop 就是 上面的命令 加 “-” 再加 linux 命令 常用命令 sbin/start-dfs.sh # 启动 hdfs 集群 sbin/stop-dfs.sh # 关闭 hdfs 集群 hadoop fs -help rm # 输出该命令的参数 hadoop fs -ls / # 显示目录信息 /是 hdfs 的根目录 hadoop fs -mkdir -p /a/b/c # -p 创建多层目录 hadoop fs -moveFromLocal localfile hdfsdir # 从本地文件剪切到 hdfs hadoop fs -copyFromLocal localfile hdfsdir # 把本地文件拷贝到 hdfs hadoop fs -put localfile hdfsdir # 把本地文件上传到 hdfs,等同于 copyFromLocal hadoop fs -copyToLocal hdfsfile localdir # 把 hdfs 文件拷贝到本地 hadoop fs -get hdfsfile localdir # 把

[HBase] 从零开始部署HBase集群

馋奶兔 提交于 2019-11-30 12:54:58
Hbase集群配置信息如下: Hadoop:hadoop-0.20.2,1 个Master节点(兼做Slave节点)3个Slave节点 Zookeeper:zookeeper-3.3.2 3个Zookeeper节点 Hbase:hbase-0.90.3 一个HMasterServer节点(兼做HRegionServer),3个HRegionServer节点 OS : ubuntu11.04 机器环境(3个VM节点): 192.168.128.131 master 192.168.128.132 slave1 192.168.128.133 slave2 并配置ssh无密码通信 一、关于虚拟机注意事项 在机器上创建第一个虚拟机后,默认的hostname 为 ubuntu,这时候拷贝两个备份,三台虚拟机的主机名均为ubuntu。 1.如果不更改hostname的话,搭建hadoop集群后执行Reduce任务时会抛出异常: mapred.JobClient: Task Id :attempt_201111222034_0001_m_000002_0, Status : FAILED Too many fetch-failures 11/11/22 20:56:19 WARN mapred.JobClient: Error reading

hadoop ha(高可用)配置步骤

不问归期 提交于 2019-11-30 12:22:50
步骤 背景 在hadoop2.x中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。 hadoop2.x官方提供了两种HDFS HA的解决方案,一种是NFS,一种是QJM。QJM主要是主备NameNode之间通过一组JournalNode同步元数据信息,一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode. 前提 三台服务器分别为hadoop01,hadoop02,hadoop03且已经在hosts中配置 三台服务器网络连通 三台服务器都已经安装好jdk和zookeeper 1. 首先解压hadoop tar -zxvf hadoop-3.1.2.tar.gz -C /home/hadoop/app/ 2. 配置环境变量 HADOOP_HOME=/home/hadoop/app/hadoop-3.1.2 PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 3. 配置core-site.xml 进入配置文件目录: cd ./hadoop-3.1.2/etc