hdfs命令

Hadoop大数据平台基础

本秂侑毒 提交于 2019-11-28 00:49:44
官网:http://hadoop.apache.org/ 文章目录 Hadoop简介 核心架构 HDFS NameNode DataNode 文件操作 Linux 集群 Hadoop和高效能计算、网格计算的区别 发展现状 MapReduce与Hadoop之比较 Hadoop生态圈 概况 HDFS(Hadoop分布式文件系统) Mapreduce(分布式计算框架) HBASE(分布式列存数据库) Zookeeper(分布式协作服务) HIVE(数据仓库) Pig(ad-hoc脚本) Sqoop(数据ETL/同步工具) Flume(日志收集工具) Mahout(数据挖掘算法库) Oozie(工作流调度器) Yarn(分布式资源管理器) Mesos(分布式资源管理器) Tachyon(分布式内存文件系统) Tez(DAG计算模型) Spark(内存DAG计算模型) Giraph(图计算模型) GraphX(图计算模型) MLib(机器学习库) Streaming(流计算模型) Kafka(分布式消息队列) Phoenix(hbase sql接口) ranger(安全管理工具) knox(hadoop安全网关) falcon(数据生命周期管理工具) Ambari(安装部署配置管理工具) Hadoop简介 Hadoop实现了一个 分布式文件系统(Hadoop Distributed File

[Hadoop] Hadoop学习笔记之Hadoop基础

这一生的挚爱 提交于 2019-11-28 00:36:01
1 Hadoop是什么?   Google公司发表了两篇论文:一篇论文是“The Google File System”,介绍如何实现分布式地存储海量数据;另一篇论文是“Mapreduce:Simplified Data Processing on Large Clusters”,介绍如何对分布式大规模数据进行处理。Doug Cutting在这两篇论文的启发下,基于OSS(Open Source software)的思想实现了这两篇论文中的原理,从而Hadoop诞生了。    Hadoop是一种开源的适合大数据的分布式存储和处理的平台。 作为一种大规模分布式数据处理平台,Hadoop已成为许多程序员的一项重要技能。 2 Hadoop能够做什么?   以下内容有博友 王路情 整理。   大数据时代已经到来,给我们的生活、工作、思维方式都带来变革。如何寻求大数据后面的价值,既是机遇又是挑战。不管是金融数据、还是电商数据、又还是社交数据、游戏数据… … 这些数据的规模、结构、增长的速度都给传统数据存储和处理技术带来巨大的考验。幸运的是,Hadoop的诞生和所构建成的生态系统给大数据的存储、处理和分析带来了曙光。   不管是国外的著名公司Google、Yahoo!、微软、亚马逊、 EBay、FaceBook、Twitter、LinkedIn等和初创公司Cloudera

Bigdata--hadoop系列安装

孤人 提交于 2019-11-27 23:18:31
Date:20180827 Monday 目前市场hadoop主流版本是2.7.x系列,下面我们就以hadoop-2.7.3为例进行安装 安装前准备: 1.操作系统:cetos(6和7) 2.java版本:1.8 3.需要插件:wget, vim, openssh, ntpd 一.示列演示: 现在有3台机器,这里以 centos6.8-64 位为例,以minimal方式安装 192.168.1.101 192.168.1.102 192.168.1.103 在 3 台节点上都先关闭防火墙 iptables –F chkconfig iptables off setenforce 0 vi /etc/selinux/config SELINUX=disable 1,分别为3台节点更改主机名 hostname c1(临时修改) 的命令更改每一台主机的主机名,并更改配置文件 vi /etc/sysconfig/network (永久修改) HOSTNAME=c1 2. 这里我们把ip映射成主机名,执行如下命令 vi /etc/hosts 在hosts文件中,如以下内容(主机和域名一役对应) 192.168.1.101 c1 192.168.1.102 c2 192.168.1.103 c3 保存退出 3. 然后用root身份将hosts文件发送到其它节点上

HDFS命令详解

我的梦境 提交于 2019-11-27 21:29:02
hdfs命令: ls 格式:hdfs dfs -ls path 作用:类似于linux的ls命令,显示文件列表 hdfs dfs -ls / lsr 格式:hdfs dfs -lsr path 作用:在整个目录下递归执行ls,与lunix中的ls -R 类似 hdfs dfs -lsr / mkdir 格式:hdfs dfs [-p] -mkdir path 作用:创建目录,-p表示可以递归创建目录 put 格式:hdfs dfs -put 作用:将单个的源文件 或者多个源文件从本地文件系统拷贝到目标文件系统中 hdfs dfs -put /rooot/a.txt /dir1 moveFromLocal 格式:hdfs dfs -moveFromLocal 作用:和put命令类似,但是源文件localsrc拷贝之后自身被删除 hdfs dfs -moveFromLocal /root/install.log / get 格式:hdfs dfs -get [-ignorecrc] [-src] 作用:将文件拷贝到本地文件系统。CRC 校验失败的文件通过-ignorecrc选项拷贝。 hdfs dfs -get /install.log /export/servers mv 格式:hdfs dfs -mv URI dest 作用:将hdfs上的文件从原路径移动到目标路径

HDFS 2.X新特性

情到浓时终转凉″ 提交于 2019-11-27 19:50:24
1 集群间 数据拷贝   1 . scp实现 两个远程主机之间的文件复制   scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push   scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull   scp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu //是 通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间 ssh 没有配置的情况下可以使用该方式。   2 . 采用 distcp 命令 实现 两个 Hadoop 集群之间的递归数据复制 [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop distcp hdfs://haoop102:9000/user/atguigu/hello.txt hdfs://hadoop103:9000/user/atguigu/hello.txt 2 小文件存档 3.案例实操 ( 1 ) 需要启动 YARN 进程 [atguigu@hadoop102 hadoop-2.7.2]$ start-yarn.sh ( 2 ) 归档 文件 把/user

hadoop单节点安装

早过忘川 提交于 2019-11-27 19:04:17
java环境变量===================================== export JAVA_HOME=/home/test/setupPackage/jdk1.7.0_67 export JRE_HOME=/home/test/setupPackage/jdk1.7.0_67/jre export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$JRE_HOME/lib hadoop环境变量=============================================== export HADOOP_HOME=/home/test/setupPackage/hadoop-2.7.3 export ZOOKEEPER_HOME=/home/test/setupPackage/zookeeper-3.4.6 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin dataDir=/home/test/setupPackage/zookeeper-3.4

HDFS(上):HDFS优缺点、HDFS操作、HDFS客户端操作、HDFS的API、HDFS数据流、HDFS的IO流、HDFS读写数据流程、HDFS文件处理详解、windows安装hadoop

穿精又带淫゛_ 提交于 2019-11-27 16:42:20
视频资料来源于尚硅谷 HDFS(上)目录 第1章·HDFS概述 1.1 HDFS产出背景及定义 1.2·HDFS优缺点 1.3·HDFS 组成架构 1.4 HDFS 文件块太小(面试重点) 第2章·HDFS的Shell操作(开发重点) 第3章·HDFS客户端操作(开发重点) 3.1·HDFS 客户端环境准备 3.2·HDFS的API操作。 3.2.1HDFS文件上传(测试参数优先级) 3.2.2·HDFS文件下载 3.2.3·HDFS文件夹删除。 3.2.4-HDFS文件名更改。 3.2.5HDFS文件详情查看 3.2.6·HDFS文件和文件夹判断。 API操作笔记完整代码 3.3·HDFS的I/O流操作(扩展) 3.3.1HDFS文件上传 3.3.2HDFS文件下载 3.3.3·定位文件读取。 第4章·HDFS的数据流(面试重点)。 4.1·HDFS 写数据流程 4.1.1.剖析文件写入 4.1.2.网络拓扑-节点距离计算 4.1.3·机架感知(副本存储节点选择) 4.2·HDFS 读数据流程 第1章 HDFS概述 1.1 HDFS产出背景及定义 HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种

hadoop的单机分布式、伪分布式和完全分布式

狂风中的少年 提交于 2019-11-27 16:06:48
一、hadoop单机分布式 1.建立hadoop用户并设置hadoop用户密码 [root@server1 ~]# ls hadoop-3.0.3.tar.gz jdk-8u181-linux-x64.tar.gz [root@server1 ~]# useradd hadoop [root@server1 ~]# id hadoop uid=1000(hadoop) gid=1000(hadoop) groups=1000(hadoop) [root@server1 ~]# passwd hadoop 2.hadoop的安装配置不建议在超户下进行,所以切换到hadoop用户下再进行配置 [root@server1 ~]# mv * /home/hadoop/ [root@server1 ~]# su - hadoop [hadoop@server1 ~]$ ls hadoop-3.0.3.tar.gz jdk-8u181-linux-x64.tar.gz 3.在hadoop用户下解压jdk安装包,并制作软链接 [hadoop@server1 ~]$ tar zxf jdk-8u181-linux-x64.tar.gz [hadoop@server1 ~]$ ls hadoop-3.0.3.tar.gz jdk1.8.0_181 jdk-8u181-linux-x64.tar.gz

HDFS

僤鯓⒐⒋嵵緔 提交于 2019-11-27 15:58:46
HDFS 概念 1、概念 1.1、 HDFS - Hadoop File distributed filesystem, HDFS以流式数据访问模式来存储超大文件。 1.2、 HDFS 以块的方式存储数据。 HDFS 集群有两类节点的模式运行,一类是namenode 用来管理节点,一类是工作节点datanode用来工作。 namenode 记录每个文件中每个快的数据节点信息,在内存中保存文件系统中每个文件和每个数据块的引用关系; datanode 需要存储并检索数据块并定期向namenode 发送存储的列表; 2、基本操作 从本地文件系统将一个文件复制到HDFS: hadoop fs -copyFromLocal input/text.txt \ hdfs:localhost/user/tom/test.txt   如果已经在core-site.xml 中指定了 URL的默认路径就可以如下 hadoop fs -copyFromLocal input/test.txt /user/tom/test.txt 将文件复制回本地文件系统,检查是否一致, 输入下面的第二条命令可以看到 MD5的值是一样的,说明文件一致 hadoop fs -copyFromLocal test.txt test.copy.txtmd input/docs/test.txt text.copy.text   

常用的HDFS操作

孤街浪徒 提交于 2019-11-27 10:43:34
  首先,把Hadoop命令加入到PATH环境变量中,直接通过start-dfs.sh开启Hadoop,也可以直接通过hdfs命令访问HDFS中的内容,方便 平时的 操作。 配置PATH环境变量    vim ~/.bashrc,进入编辑,在最前面加入如下单独一行   export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin    source ~/.bashrc 使设置生效,现在可以在任意目录中直接使用 hdfs 等命令了 启动Hadoop: start-dfs.sh   Hadoop系统安装好以后,第一次使用HDFS时,需要首先在HDFS中创建用户目录 :    hdfs dfs -mkdir -p /user/hadoop ,由于采用的是hadoop用户登录,所以在HDFS中创建一个“/user/hadoop”用户目录,本地上传的文件都会被保存在/user/hadoop下。 上传文件: -put    本地 /home/Hadoop/temp 文件目录下的file上传到HDFS中的/user/hadoop目录下      hdfs dfs -put /home/Hadoop/temp/file ./ (“./”表示当前目录,即/user/hadoop目录)    -appendToFile :若文件存在