hdfs命令 | 易学教程

Hadoop大数据平台基础

阅读更多关于 Hadoop大数据平台基础

官网：http://hadoop.apache.org/ 文章目录 Hadoop简介核心架构 HDFS NameNode DataNode 文件操作 Linux 集群 Hadoop和高效能计算、网格计算的区别发展现状 MapReduce与Hadoop之比较 Hadoop生态圈概况 HDFS（Hadoop分布式文件系统） Mapreduce（分布式计算框架） HBASE（分布式列存数据库） Zookeeper（分布式协作服务） HIVE（数据仓库） Pig(ad-hoc脚本） Sqoop(数据ETL/同步工具） Flume（日志收集工具） Mahout（数据挖掘算法库） Oozie(工作流调度器） Yarn(分布式资源管理器） Mesos（分布式资源管理器） Tachyon（分布式内存文件系统） Tez(DAG计算模型) Spark(内存DAG计算模型) Giraph(图计算模型) GraphX(图计算模型） MLib（机器学习库） Streaming（流计算模型） Kafka（分布式消息队列） Phoenix（hbase sql接口） ranger(安全管理工具） knox（hadoop安全网关） falcon（数据生命周期管理工具） Ambari（安装部署配置管理工具） Hadoop简介 Hadoop实现了一个分布式文件系统（Hadoop Distributed File

[Hadoop] Hadoop学习笔记之Hadoop基础

阅读更多关于 [Hadoop] Hadoop学习笔记之Hadoop基础

1 Hadoop是什么？　　Google公司发表了两篇论文：一篇论文是“The Google File System”，介绍如何实现分布式地存储海量数据；另一篇论文是“Mapreduce:Simplified Data Processing on Large Clusters”，介绍如何对分布式大规模数据进行处理。Doug Cutting在这两篇论文的启发下，基于OSS（Open Source software）的思想实现了这两篇论文中的原理，从而Hadoop诞生了。　　 Hadoop是一种开源的适合大数据的分布式存储和处理的平台。作为一种大规模分布式数据处理平台，Hadoop已成为许多程序员的一项重要技能。 2 Hadoop能够做什么？　　以下内容有博友王路情整理。　　大数据时代已经到来，给我们的生活、工作、思维方式都带来变革。如何寻求大数据后面的价值，既是机遇又是挑战。不管是金融数据、还是电商数据、又还是社交数据、游戏数据… … 这些数据的规模、结构、增长的速度都给传统数据存储和处理技术带来巨大的考验。幸运的是，Hadoop的诞生和所构建成的生态系统给大数据的存储、处理和分析带来了曙光。　　不管是国外的著名公司Google、Yahoo!、微软、亚马逊、 EBay、FaceBook、Twitter、LinkedIn等和初创公司Cloudera

Bigdata--hadoop系列安装

阅读更多关于 Bigdata--hadoop系列安装

Date：20180827 Monday 目前市场hadoop主流版本是2.7.x系列，下面我们就以hadoop-2.7.3为例进行安装安装前准备： 1.操作系统：cetos（6和7） 2.java版本：1.8 3.需要插件：wget， vim， openssh， ntpd 一.示列演示：现在有3台机器，这里以 centos6.8-64 位为例，以minimal方式安装 192.168.1.101 192.168.1.102 192.168.1.103 在 3 台节点上都先关闭防火墙 iptables –F chkconfig iptables off setenforce 0 vi /etc/selinux/config SELINUX=disable 1，分别为3台节点更改主机名 hostname c1（临时修改）的命令更改每一台主机的主机名，并更改配置文件 vi /etc/sysconfig/network （永久修改） HOSTNAME=c1 2. 这里我们把ip映射成主机名，执行如下命令 vi /etc/hosts 在hosts文件中，如以下内容(主机和域名一役对应) 192.168.1.101 c1 192.168.1.102 c2 192.168.1.103 c3 保存退出 3. 然后用root身份将hosts文件发送到其它节点上

HDFS命令详解

阅读更多关于 HDFS命令详解

hdfs命令： ls 格式：hdfs dfs -ls path 作用：类似于linux的ls命令，显示文件列表 hdfs dfs -ls / lsr 格式：hdfs dfs -lsr path 作用：在整个目录下递归执行ls，与lunix中的ls -R 类似 hdfs dfs -lsr / mkdir 格式：hdfs dfs [-p] -mkdir path 作用：创建目录，-p表示可以递归创建目录 put 格式：hdfs dfs -put 作用：将单个的源文件或者多个源文件从本地文件系统拷贝到目标文件系统中 hdfs dfs -put /rooot/a.txt /dir1 moveFromLocal 格式：hdfs dfs -moveFromLocal 作用：和put命令类似，但是源文件localsrc拷贝之后自身被删除 hdfs dfs -moveFromLocal /root/install.log / get 格式：hdfs dfs -get [-ignorecrc] [-src] 作用：将文件拷贝到本地文件系统。CRC 校验失败的文件通过-ignorecrc选项拷贝。 hdfs dfs -get /install.log /export/servers mv 格式：hdfs dfs -mv URI dest 作用：将hdfs上的文件从原路径移动到目标路径

HDFS 2.X新特性

阅读更多关于 HDFS 2.X新特性

1 集群间数据拷贝　　1 ． scp实现两个远程主机之间的文件复制　　scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push 　　scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull 　　scp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu //是通过本地主机中转实现两个远程主机的文件复制；如果在两个远程主机之间 ssh 没有配置的情况下可以使用该方式。　　2 ．采用 distcp 命令实现两个 Hadoop 集群之间的递归数据复制 [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop distcp hdfs://haoop102:9000/user/atguigu/hello.txt hdfs://hadoop103:9000/user/atguigu/hello.txt 2 小文件存档 3．案例实操（ 1 ）需要启动 YARN 进程 [atguigu@hadoop102 hadoop-2.7.2]$ start-yarn.sh （ 2 ）归档文件把/user

hadoop单节点安装

阅读更多关于 hadoop单节点安装

java环境变量===================================== export JAVA_HOME=/home/test/setupPackage/jdk1.7.0_67 export JRE_HOME=/home/test/setupPackage/jdk1.7.0_67/jre export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$JRE_HOME/lib hadoop环境变量=============================================== export HADOOP_HOME=/home/test/setupPackage/hadoop-2.7.3 export ZOOKEEPER_HOME=/home/test/setupPackage/zookeeper-3.4.6 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin dataDir=/home/test/setupPackage/zookeeper-3.4

HDFS（上）：HDFS优缺点、HDFS操作、HDFS客户端操作、HDFS的API、HDFS数据流、HDFS的IO流、HDFS读写数据流程、HDFS文件处理详解、windows安装hadoop

阅读更多关于 HDFS（上）：HDFS优缺点、HDFS操作、HDFS客户端操作、HDFS的API、HDFS数据流、HDFS的IO流、HDFS读写数据流程、HDFS文件处理详解、windows安装hadoop

视频资料来源于尚硅谷 HDFS（上）目录第1章·HDFS概述 1.1 HDFS产出背景及定义 1.2·HDFS优缺点 1.3·HDFS 组成架构 1.4 HDFS 文件块太小（面试重点）第2章·HDFS的Shell操作（开发重点）第3章·HDFS客户端操作（开发重点） 3.1·HDFS 客户端环境准备 3.2·HDFS的API操作。 3.2.1HDFS文件上传（测试参数优先级） 3.2.2·HDFS文件下载 3.2.3·HDFS文件夹删除。 3.2.4-HDFS文件名更改。 3.2.5HDFS文件详情查看 3.2.6·HDFS文件和文件夹判断。 API操作笔记完整代码 3.3·HDFS的I/O流操作（扩展） 3.3.1HDFS文件上传 3.3.2HDFS文件下载 3.3.3·定位文件读取。第4章·HDFS的数据流（面试重点）。 4.1·HDFS 写数据流程 4.1.1.剖析文件写入 4.1.2.网络拓扑-节点距离计算 4.1.3·机架感知（副本存储节点选择） 4.2·HDFS 读数据流程第1章 HDFS概述 1.1 HDFS产出背景及定义 HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种

hadoop的单机分布式、伪分布式和完全分布式

阅读更多关于 hadoop的单机分布式、伪分布式和完全分布式

一、hadoop单机分布式 1.建立hadoop用户并设置hadoop用户密码 [root@server1 ~]# ls hadoop-3.0.3.tar.gz jdk-8u181-linux-x64.tar.gz [root@server1 ~]# useradd hadoop [root@server1 ~]# id hadoop uid=1000(hadoop) gid=1000(hadoop) groups=1000(hadoop) [root@server1 ~]# passwd hadoop 2.hadoop的安装配置不建议在超户下进行，所以切换到hadoop用户下再进行配置 [root@server1 ~]# mv * /home/hadoop/ [root@server1 ~]# su - hadoop [hadoop@server1 ~]$ ls hadoop-3.0.3.tar.gz jdk-8u181-linux-x64.tar.gz 3.在hadoop用户下解压jdk安装包，并制作软链接 [hadoop@server1 ~]$ tar zxf jdk-8u181-linux-x64.tar.gz [hadoop@server1 ~]$ ls hadoop-3.0.3.tar.gz jdk1.8.0_181 jdk-8u181-linux-x64.tar.gz

HDFS

阅读更多关于 HDFS

HDFS 概念 1、概念 1.1、 HDFS - Hadoop File distributed filesystem， HDFS以流式数据访问模式来存储超大文件。 1.2、 HDFS 以块的方式存储数据。 HDFS 集群有两类节点的模式运行，一类是namenode 用来管理节点，一类是工作节点datanode用来工作。 namenode 记录每个文件中每个快的数据节点信息，在内存中保存文件系统中每个文件和每个数据块的引用关系； datanode 需要存储并检索数据块并定期向namenode 发送存储的列表； 2、基本操作从本地文件系统将一个文件复制到HDFS： hadoop fs -copyFromLocal input/text.txt \ hdfs:localhost/user/tom/test.txt 　　如果已经在core-site.xml 中指定了 URL的默认路径就可以如下 hadoop fs -copyFromLocal input/test.txt /user/tom/test.txt 将文件复制回本地文件系统，检查是否一致, 输入下面的第二条命令可以看到 MD5的值是一样的，说明文件一致 hadoop fs -copyFromLocal test.txt test.copy.txtmd input/docs/test.txt text.copy.text 　　

常用的HDFS操作

阅读更多关于常用的HDFS操作

　　首先，把Hadoop命令加入到PATH环境变量中，直接通过start-dfs.sh开启Hadoop，也可以直接通过hdfs命令访问HDFS中的内容，方便平时的操作。配置PATH环境变量　　 vim ~/.bashrc，进入编辑，在最前面加入如下单独一行　　export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin 　　 source ~/.bashrc 使设置生效，现在可以在任意目录中直接使用 hdfs 等命令了启动Hadoop： start-dfs.sh 　　Hadoop系统安装好以后，第一次使用HDFS时，需要首先在HDFS中创建用户目录 : 　　 hdfs dfs -mkdir -p /user/hadoop ，由于采用的是hadoop用户登录，所以在HDFS中创建一个“/user/hadoop”用户目录，本地上传的文件都会被保存在/user/hadoop下。上传文件： -put 　　本地 /home/Hadoop/temp 文件目录下的file上传到HDFS中的/user/hadoop目录下　　　　 hdfs dfs -put /home/Hadoop/temp/file ./ （“./”表示当前目录，即/user/hadoop目录）　　 -appendToFile ：若文件存在

订阅 hdfs命令