hdfs命令

Hadoop常用shell操作

匿名 (未验证) 提交于 2019-12-03 00:27:02
功能:输出这个命令参数手册 功能:显示目录信息 示例: hadoop fs -ls hdfs://hadoop-server01:9000/ 备注:这些参数中,所有的 hdfs --> 功能:在 hdfs 示例: 功能:从本地剪切粘贴到 hdfs 示例: 功能:从 hdfs 示例: 功能:追加一个文件到已经存在的文件末尾 示例: 可以简写为: H 示例: 功能:显示一个文件的末尾 示例: 功能:以字符形式打印一个文件的内容 示例: -chgrp -chmod -chown 功能: linux 示例: hadoop 功能:从本地文件系统中拷贝文件到 hdfs 示例: 功能:从 hdfs 示例: hadoop fs -copyToLocal /aaa/jdk.tar.gz 功能:从 hdfs hdfs 示例: hadoop 功能:在 hdfs 示例: hadoop mv 功能:等同于 copyToLocal hdfs 示例: 功能:合并下载多个文件 示例: 比如 hdfs /aaa/ :log.1, log.2,log.3,... hadoop fs -getmerge /aaa/log.* ./log.sum 功能:等同于 copyFromLocal 示例: hadoop put 功能:删除文件或文件夹 示例: hadoop fs -rm -r /aaa/bbb/ 功能:删除空目录

HDFS详解

匿名 (未验证) 提交于 2019-12-03 00:27:02
数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统,这样分布式文件系统就应运而生。 分布式文件系统( Distributed File System )是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。 通俗点讲,就是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。 即使系统中有某些节点脱机,整体来说系统仍然可以持续运作而不会有数据损失。 分布式文件管理系统很多,hdfs只是其中一种。适用于一次写入多次查询的情况,不支持并发写情况,小文件不合适。 当前比较流行的分布式文件系统包括: Lustre 、 Hadoop 、 MogileFS 、 FreeNAS 、 FastDFS 、 NFS 、 OpenAFS 、 MooseFS 、 pNFS 、以及 GoogleFS 。 HDFS 简介 HDFS是基于流数据模式访问和处理超大文件的需求而开发的,他可以运行在廉价的商用服务器上。总的来说,HDFS具有以下几个特点:   1)处理超大文件   这里的超大文件通常是指百MB、设置数百TB大小的文件

HDFS文件常用命令

匿名 (未验证) 提交于 2019-12-03 00:22:01
1、 bin/hadoop fs -ls hdfs_path //查看HDFS目录下的文件和子目录 bin/hadoop fs -mkdir hdfs_path //在HDFS上创建文件夹 bin/hadoop fs -rm hdfs_path //删除HDFS上的文件 bin/hadoop fs -rmr hdfs_path //删除HDFS上的文件夹 bin/hadoop fs -put local_file hdfs_path //将本地文件copy到HDFS上 bin/hadoop fs -get hdfs_file local_path //复制HDFS文件到本地 bin/hadoop fs -cat hdfs_file //查看HDFS上某文件的内容 2、 //单位Byte: bin/hadoop fs -du / | sort -n //单位MB: bin/hadoop fs -du / | awk -F ' ' '{printf "%.2fMB\t\t%s\n", $1/1024/1024,$2}' | sort -n //单位GB,大于1G: bin/hadoop fs -du / | awk -F ' ' '{num=$1/1024/1024/1024; if(num>1){printf "%.2fGB\t\t%s\n", num, $2} }' | sort

写给大数据开发初学者的话 | 附教程

匿名 (未验证) 提交于 2019-12-03 00:22:01
导读: 第一章:初识 Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第十章:牛逼高大上的机器学习 经常有初学者在博客和QQ问我,自己想往 大数据 方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。。 其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。 先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的 大数据框架 越来越多

Hadoop笔记:HDFS环境搭建

匿名 (未验证) 提交于 2019-12-03 00:21:02
标签: 大数据 Prerequisites ֹͣhdfs 环境: CentOS6.4 Hadoop 2.6.0 -cdh5.7.0 Prerequisites 首先我们进入到官方网址 http://archive-primary.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0/ 由于我们一开始是要做一个“伪分布式”,因此我们在左侧 General 中选择 Single Node Setup 然后我们看到,需要安装JDK以及SSH: 推荐的是安装jdk7: http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html 下载:jdk-7u79-linux-i586.tar.gz 然后下载,在Linux的Firefox下压缩包被下载到Downloads下,我们使用mv命令将其移动到software下。 使命令解压到app目录下: tar -zxvf jdk - 7 u79 -linux -x64 . tar . gz -C ~/app 然后我们在使用pwd获取其全路径。 将jdk配置到系统环境变量中 。 我们 打开用户目录下的 .hash_profile 文件 : vim ~/.bash_profile 然后

Hadoop----hdfs dfs常用命令的使用

匿名 (未验证) 提交于 2019-12-03 00:15:02
-mkdir   创建目录  hdfs dfs -mkdir [-p] < paths> -ls   查看目录下内容,包括文件名,权限,所有者,大小和修改时间  hdfs dfs -ls [-R] < args> -put   将本地文件或目录上传到HDFS中的路径  hdfs dfs -put < localsrc> … < dst> -get   将文件或目录从HDFS中的路径拷贝到本地文件路径  hdfs dfs -get [-ignoreCrc] [-crc] < src> < localdst>  选项:-ignorecrc选项复制CRC校验失败的文件。-crc选项复制文件和CRC。 -du   显示给定目录中包含的文件和目录的大小或文件的长度,用字节大小表示,文件名用完整的HDFS协议前缀表示,以防它只是一个  hdfs dfs -du [-s] [-h] URI [URI …]   选项: -s选项将显示文件长度的汇总摘要,而不是单个文件。 -h选项将以“人类可读”的方式格式化文件大小(例如64.0m而不是67108864) -dus   显示文件长度的摘要。  hdfs dfs -dus < args>  注意:不推荐使用此命令。而是使用hdfs dfs -du -s。 -mv   在HDFS文件系统中,将文件或目录从HDFS的源路径移动到目标路径

Hadoop(HDFS)常用命令--必须掌握!

匿名 (未验证) 提交于 2019-12-03 00:15:02
文章目录 1.查看HDFS文件系统下所有的文件及目录 2.从本地文件系统中复制单个或多个源路径到目标文件系统 3.从本地文件系统中复制单个文件到目标文件系统 4.从本地文件系统中复制单个文件到目标文件系统并将文件从本地删除 5.将路径指定文件的内容输出到stdout(cat) 6.将路径指定文件的内容输出到stdout(text) 7.其余与Linux Shell命令大致一样 1.查看HDFS文件系统下所有的文件及目录 hadoop fs -ls / 2.从本地文件系统中复制单个或多个源路径到目标文件系统 使用方法:hadoop fs -put <localsrc> ... <dst> 返回值: 成功返回0,失败返回-1。 3.从本地文件系统中复制单个文件到目标文件系统 使用方法:hadoop fs -copyFromLocal <localsrc> URI 4.从本地文件系统中复制单个文件到目标文件系统并将文件从本地删除 使用方法:dfs -moveFromLocal <src> <dst> 5.将路径指定文件的内容输出到stdout(cat) 使用方法:hadoop fs -cat URI [URI …] 6.将路径指定文件的内容输出到stdout(text) 7.其余与Linux Shell命令大致一样 命令 用法 hadoop fs -mkdir 使用方法:hadoop

浅谈HDFS(三)之DataNote

匿名 (未验证) 提交于 2019-12-03 00:12:02
一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 DataNode与NameNode之间有一个 心跳事件 ,心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令,如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。 集群运行中可以安全加入和退出一些机器 思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险? 同理,DataNode节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢? 保证数据完整性的方法 当DataNode读取Block的时候,它会计算CheckSum(校验和) 如果计算后的CheckSum,与Block创建时值不一样,说明Block已经损坏 Client读取其他DataNode上的Block DataNode在其文件创建后周期验证CheckSum,如下图: DataNode进程死亡或者网络故障造成DataNode无法与NameNode通信时的TimeOut参数设置 NameNode不会立即把该节点判断为死亡,要经过一段时间

Hbase集群部署

匿名 (未验证) 提交于 2019-12-03 00:11:01
1、主机初始化 hostnamectl set-hostname hbase-master hostnamectl set-hostname hbase-node1 hostnamectl set-hostname hbase-node2 cat <<EOF >> /etc/hosts 192.168.2.124 hbase-master 192.168.2.125 hbase-node1 192.168.2.126 hbase-node2 EOF #设置yum源 cd /etc/yum.repos.d/ rename repo repo.bak * curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo yum clean all && yum makecache #修改配置文件 cat <<EOF | tee /etc/profile.d/my.sh PS1='\[\e[1;32m\][\u@\h \w]\$ \[\e[0m\]' alias vi="vim" HISTSIZE=10000 HISTTIMEFORMAT="%F %T " EOF source /etc/profile.d/my.sh #安装JDK yum install -y java-1.8

hadoop(十一)HDFS简介和常用命令介绍

匿名 (未验证) 提交于 2019-12-03 00:08:02
HDFS背景 随着数据量的增大,在一个操作系统中内存不了了,就需要分配到操作系统的的管理磁盘中,但是不方便管理者维护,迫切需要一种系统来管理多态机器上的文件,这就是分布式文件管理系统。 HDFS的概念 HDFS英文hadoop distributed file system ,是一个分布式文件系统,用于存储文件,通过目录树记录定位文件,其次他是分布式的,由很多服务器联合起来实现其功能,集群中的服务器各有角色。 HDFS的设计适合一次吸入,多次读取的场景,且不支持文件的修改。适合做数据分析。 HDFS优缺点 优点 1)高容错性 (1)数据自动保存多个副本。它通过增加副本的形式,提高容错性; (2)某一个副本丢失以后,它可以自动恢复。 2)适合大数据处理 (1)数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据; (2)文件规模:能够处理百万规模以上的文件数量,数量相当之大。 3)流式数据访问,它能保证数据的一致性 4)可构建在廉价机器上,通过多副本机制,提高可靠性。 缺点 1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。 2)无法高效的对大量小文件进行存储。 (1)存储大量小文件的话,它会占用 Namenode大量的内存来存储文件、目录和块信息。这样是不可取的,因为 Namenode的内存总是有限的; (2)小文件存储的寻址时间会超过读取时同