hdfs命令 | 易学教程

大数据集群环境搭建之一 hadoop-ha高可用安装

阅读更多关于大数据集群环境搭建之一 hadoop-ha高可用安装

1、如果你使用 root用户进行安装。 vi /etc/profile 即可系统变量 2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量 export HADOOP_HOME= /export/servers/hadoop-2.8.5 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin: 同步配置文件 [root@jiang01 servers]# vi /etc/profile [root@jiang01 servers]# [root@jiang01 servers]# xrsync.sh /etc/profile =========== jiang02 : /etc/profile =========== 命令执行成功 =========== jiang03 : /etc/profile =========== 命令执行成功 [root@jiang01 servers]# 刷新配置各个机器配置： source /etc/profile 修改下面各个配置文件： <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the

Sqoop

阅读更多关于 Sqoop

第1章 Sqoop简介 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。 Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个 Apache 项目。 Sqoop2的最新版本是1.99.7。请注意，2与1不兼容，且特征不完整，它并不打算用于生产部署。第2章 Sqoop原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。第3章 Sqoop安装安装Sqoop的前提是已经具备Java和Hadoop的环境。 3.1 下载并解压 1) 下载地址： http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2) 上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中 3) 解压sqoop安装包到指定目录，如： $ tar -zxf

Hadoop 之 HDFS

阅读更多关于 Hadoop 之 HDFS

　　1 HDFS 概述　　1.1 HDFS 产出背景及定义　　随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。　　HDFS(Hadoop Distributed File System)，它是一个文件系统，用于存储文件，通过目录树来定位文件;其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。　　HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。　　1.2 HDFS优缺点　　优点：　　高容错性　　数据自动保存多个副本。它通过增加副本的形式，提高容错性　　某一个副本丢失以后，它可以自动恢复　　适合处理大数据　　可构建在廉价机器上，通过多副本机制，提高可靠性　　缺点：　　不适合低延时数据访问，比如毫秒级的存储数据　　无法高效的对大量小文件进行存储　　不支持并发写入、文件随机修改　　1.3 HDFS组成架构　　　　　　1.4 HDFS文件块大小　　HDFS 中的文件在物理上是分块存储(Block)，块的大小可以通过配置参数(dfs.blocksize)来规定，默认大小在Hadoop2.x

Linux下安装Hadoop(2.7.1)详解及WordCount运行

阅读更多关于 Linux下安装Hadoop(2.7.1)详解及WordCount运行

一、引言　　在完成了Storm的环境配置之后，想着鼓捣一下Hadoop的安装，网上面的教程好多，但是没有一个特别切合的，所以在安装的过程中还是遇到了很多的麻烦，并且最后不断的查阅资料，终于解决了问题，感觉还是很好的，下面废话不多说，开始进入正题。　　本机器的配置环境如下：　　　　Hadoop(2.7.1) 　　　　Ubuntu Linux(64位系统) 　　下面分为几个步骤来详解配置过程。二、安装ssh服务　　进入shell命令，输入如下命令，查看是否已经安装好ssh服务，若没有，则使用如下命令进行安装：　　　　sudo apt-get install ssh openssh-server 　　安装过程还是比较轻松加愉快的。三、使用ssh进行无密码验证登录　　1.创建ssh-key，这里我们采用rsa方式，使用如下命令：　　　　ssh-keygen -t rsa -P "" 　　2.出现一个图形，出现的图形就是密码，不用管它　　　　cat ~/.ssh/id_rsa.pub >> authorized_keys(好像是可以省略的) 　　3.然后即可无密码验证登录了，如下：　　　　ssh localhost 　　成功截图如下：　　　　四、下载Hadoop安装包　　下载Hadoop安装也有两种方式　　　　1.直接上官网进行下载， http:/

大数据hadoop 面试经典题

阅读更多关于大数据hadoop 面试经典题

1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂) 2.hadoop 的 namenode 宕机,怎么解决先分析宕机后的损失，宕机后直接导致client无法访问，内存中的元数据丢失，但是硬盘中的元数据应该还存在，如果只是节点挂了，重启即可，如果是机器挂了，重启机器后看节点是否能重启，不能重启就要找到原因修复了。但是最终的解决方案应该是在设计集群的初期就考虑到这个问题，做namenode的HA。 3.一个datanode 宕机,怎么一个流程恢复 Datanode宕机了后，如果是短暂的宕机，可以实现写好脚本监控，将它启动起来。如果是长时间宕机了，那么datanode上的数据应该已经被备份到其他机器了，那这台datanode就是一台新的datanode了，删除他的所有数据文件和状态文件，重新启动。 4.Hbase 的特性,以及你怎么去设计 rowkey 和 columnFamily ,怎么去建一个table 因为hbase是列式数据库，列非表schema的一部分，所以在设计初期只需要考虑rowkey 和 columnFamily即可，rowkey有位置相关性，所以如果数据是练习查询的，最好对同类数据加一个前缀，而每个columnFamily实际上在底层是一个文件，那么文件越小，查询越快，所以讲经

浅谈HDFS（三）之DataNote

阅读更多关于浅谈HDFS（三）之DataNote

DataNode工作机制一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。 DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。 DataNode与NameNode之间有一个心跳事件，心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令，如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。集群运行中可以安全加入和退出一些机器数据完整性思考：如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号（1）和绿灯信号（0），但是存储该数据的磁盘坏了，一直显示是绿灯，是否很危险？同理，DataNode节点上的数据损坏了，却没有发现，是否也很危险，那么如何解决呢？保证数据完整性的方法当DataNode读取Block的时候，它会计算CheckSum（校验和）如果计算后的CheckSum，与Block创建时值不一样，说明Block已经损坏 Client读取其他DataNode上的Block DataNode在其文件创建后周期验证CheckSum，如下图：掉线时参数设置 DataNode进程死亡或者网络故障造成DataNode无法与NameNode通信时的TimeOut参数设置

HDFS笔记

阅读更多关于 HDFS笔记

HDFS 基于流数据模式访问和处理超大文件的需求而开发的。 HDFS不适合的应用类型低延时的数据访问 HDFS是为高吞吐数据传输设计的,因此可能牺牲延时HBase更适合低延时的数据访问。大量小文件文件的元数据保存在NameNode的内存中，整个文件系统的文件数量会受限于NameNode的内存大小。多方读写，需要任意的文件修改 HDFS采用追加的方式写入数据。不支持文件任意修改。不支持多个写入器（writer）。相关概念块（Block） HDFS文件系统的文件被分成块进行存储；HDFS被设计出来就是处理大文件的；块默认大小：64M；小于一个块大小的文件不会占据整个块的空间；好处：它将超大文件分成众多块，分别存储在集群的各个机器上；简化存储系统：块的大小固定，更利于管理，复制，备份，容错，并且便于元数据去统计、映射；块的大小可以自行设置，但是必须是64M的整数倍（hdfs-site.xml） <property> <name>dfs.block.size</name> <value>512000</value> </property> 为什么块要设置这么大？目的是：最小化寻址开销比如：寻址时间需要10ms 1.块=1M，寻址64M文件，需要640ms 2.块=64M，需要10ms 块的设置不能太大，因为MapReduce任务是按块来处理的，块太大

shell with hadoop

阅读更多关于 shell with hadoop

shell 命令操作 hadoop 之前多少提及过，这里做个总结。 shell with hdfs 基本命令 bin/hadoop fs 大于下面的命令 bin/hdfs dfs dfs 是 fs 的实现类 shell 操作 hadoop 就是上面的命令加 “-” 再加 linux 命令常用命令 sbin/start-dfs.sh # 启动 hdfs 集群 sbin/stop-dfs.sh # 关闭 hdfs 集群 hadoop fs -help rm # 输出该命令的参数 hadoop fs -ls / # 显示目录信息 /是 hdfs 的根目录 hadoop fs -mkdir -p /a/b/c # -p 创建多层目录 hadoop fs -moveFromLocal localfile hdfsdir # 从本地文件剪切到 hdfs hadoop fs -copyFromLocal localfile hdfsdir # 把本地文件拷贝到 hdfs hadoop fs -put localfile hdfsdir # 把本地文件上传到 hdfs，等同于 copyFromLocal hadoop fs -copyToLocal hdfsfile localdir # 把 hdfs 文件拷贝到本地 hadoop fs -get hdfsfile localdir # 把

[HBase] 从零开始部署HBase集群

阅读更多关于 [HBase] 从零开始部署HBase集群

Hbase集群配置信息如下： Hadoop：hadoop-0.20.2，1 个Master节点（兼做Slave节点）3个Slave节点 Zookeeper：zookeeper-3.3.2 3个Zookeeper节点 Hbase：hbase-0.90.3 一个HMasterServer节点（兼做HRegionServer）,3个HRegionServer节点 OS ： ubuntu11.04 机器环境（3个VM节点）: 192.168.128.131 master 192.168.128.132 slave1 192.168.128.133 slave2 并配置ssh无密码通信一、关于虚拟机注意事项在机器上创建第一个虚拟机后，默认的hostname 为 ubuntu,这时候拷贝两个备份，三台虚拟机的主机名均为ubuntu。 1.如果不更改hostname的话，搭建hadoop集群后执行Reduce任务时会抛出异常： mapred.JobClient: Task Id :attempt_201111222034_0001_m_000002_0, Status : FAILED Too many fetch-failures 11/11/22 20:56:19 WARN mapred.JobClient: Error reading

hadoop ha(高可用)配置步骤

阅读更多关于 hadoop ha(高可用)配置步骤

步骤背景在hadoop2.x中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。 hadoop2.x官方提供了两种HDFS HA的解决方案，一种是NFS，一种是QJM。QJM主要是主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode. 前提三台服务器分别为hadoop01,hadoop02,hadoop03且已经在hosts中配置三台服务器网络连通三台服务器都已经安装好jdk和zookeeper 1. 首先解压hadoop tar -zxvf hadoop-3.1.2.tar.gz -C /home/hadoop/app/ 2. 配置环境变量 HADOOP_HOME=/home/hadoop/app/hadoop-3.1.2 PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 3. 配置core-site.xml 进入配置文件目录： cd ./hadoop-3.1.2/etc

订阅 hdfs命令