hdfs命令

Sqoop 数据迁移工具

眉间皱痕 提交于 2019-11-28 19:49:05
Sqoop 数据迁移工具 sqoop : SQL to hadOOP 两个功能: 1、 RDB 向HDFS导入 2、 HDFS向RDB导入 注:拷贝mysql-connector.jar 和 json.jar 到sqoop/lib目录下 HDFS导入使用 命令很长,一般写成shell脚本。(运行需要启动 HDFS 、Yarn[mapreduce作业必须]、SQL) COLUMN 、WHERE限定 sqoop import \ #import指从sql导入到hdfs --connect jdbc:mysql://localhost:3306/test \ # 可选 --driver com.mysql.jdbc.Driver #test是目标数据库名 --table customers \ #目标表名 --columns "fname,lname" \ #可以使用columns指定字段 --where "order_date>'2019-1-1'" \ #可以使用where筛选原数据 --username root \ #数据库登陆用户名 --password rw \ #密码 --target-dir /sqoop/test_rdb/customers \ #hdfs 的目标路径,不指定的话会放在/user/【username】/【tbl_name】下 --delete

HDFS介绍~超详细

南楼画角 提交于 2019-11-28 18:28:50
HDFS(Hadoop Distributed File System) (1) HDFS--Hadoop分布式文件存储系统 源自于Google的GFS论文,HDFS是GFS的克隆版 HDFS是Hadoop中数据存储和管理的基础 他是一个高容错的系统,能够自动解决硬件故障,eg:硬盘损坏,HDFS可以自动修复,可以运行于低成本的通用硬件上(低廉的硬盘,4TB是1200元左右) 一次写入多次读取,不支持修改操作,数据按块切分(按128M切块),按位存储(就近原则) (2) HDFS底层架构 - 分布式文件存储系统 基于物理层存储的分布式(用多台虚拟机来存储咱们的存在) 基于客户端/服务器模式 通常情况下HDFS都会提供容错和备份机制 通常情况下:HDFS都是基于本地系统的文件存储系统 (3) 分布式文件系统的特点(优缺点) 优点: 高可靠: 按位存储,数据分配就近原则,会把数据分配到离他最近的DataNode,所以值得人们信赖 高扩展: 集群节点可以根据业务需求随时扩展和缩减 高效性: 可以在各个集群集群节点之间动态的移动数据,并且保证集群间各节点之间的动态平衡,因此处理速度非常快 高容错: Hadoop能够自动保存多个副本(默认3份,可修改),并且能够将失败的任务自动重新分配,解决硬件故障 成本低: 不适合高效存储大量小文件 不适合低延迟的数据访问 不支持多用户的写入和修改操作

Ubuntu 17.10配置Hadoop+Spark环境

怎甘沉沦 提交于 2019-11-28 17:26:27
一、前言 最近导师带的项目是与大数据相关,感觉这几年大数据技术还挺火的,就想着也去学一下,丰富自己的技能栈。本文主要讲的是hadoop+spark的环境搭建,然后使用自带的examples测试环境,这里不涉及原理介绍。 二、Hadoop的三种运行模式介绍 2.1、 单机模式也叫独立模式(Local或Standalone Mode) 2.2、 伪分布式模式(Pseudo-Distrubuted Mode) Hadoop的守护进程运行在本机机器上,模拟一个小规模的集群 在一台主机上模拟多主机。 Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。 在这种模式下,Hadoop使用的是分布式文档系统,各个作业也是由JobTraker服务,来管理的独立进程。在单机模式之上增加了代码调试功能,允许检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。类似于完全分布式模式,因此,这种模式常用来开发测试Hadoop进程的执行是否正确。 修改3个配置文档:core-site.xml(Hadoop集群的特性,作用于全部进程及客户端)、hdfs-site.xml(配置HDFS集群的工作属性)、mapred-site.xml(配置MapReduce集群的属性) 格式化文档系统 2.3、

Hadoop Getting Started

*爱你&永不变心* 提交于 2019-11-28 17:26:10
Hadoop Getting Started 文章导航 30 July 2015 更多 一、关于 Hadoop 1 Hadoop是什么: Hadoop是Apache的开源的分布式存储以及分布式计算平台 官网 2 Hadoop的两个核心组成: HDFS : 分布式文档系统,存储海量的数据 MapReduce : 并行处理框架,实现任务分解和调度 3 Hadoop的用途: 搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务. 搜索引擎 日志分析 商业智能 数据挖掘 4 Hadoop的优势: 1.高扩展 2.低成本 3.成熟的生态圈(Hadoop Ecosysten) 5 Hadoop的生态系统及版本: HDFS + MapReduce + 开源工具 1.HIVE : 只需要编写简单的SQL语句, 转化成Hadoop任务 2.HBASE : 存储结构化数据的分布式数据库. 和传统的关系型数据库区别, Hbase放弃失特性,追求更高的扩展 和HDFS区别: Hbase提供数据的随机读写和实时访问, 实现对表数据的读写功能. 3.Zookeeper : 监控Hadoop集群的状态,管理Hadoop集群的配置… 二、Hadoop的安装(Ubuntu 14.04) Step 1: 准备Linux, 这里用Ubuntu 14.04 Step 2: 安装JDK, 这里用OpenJDK 1,7

零基础学习hadoop到上手工作线路指导(中级篇)

家住魔仙堡 提交于 2019-11-28 15:29:58
此篇是在 零基础学习hadoop到上手工作线路指导(初级篇) 的基础,一个继续总结。 五一假期:在写点内容,也算是总结。上面我们会了基本的编程,我们需要对hadoop有一个更深的理解: hadoop分为 hadoop1.X 、 hadoop2.X ,并且还有 hadoop生态系统 。这里只能慢慢介绍了。一口也吃不成胖子。 hadoop 1.x 分为 mapreduce 与 hdfs 其中mapreduce是很多人都需要迈过去的槛,它比较难以理解,我们有时候即使写出了mapreduce程序,但是还是摸不着头脑。 我们不知道key代表什么意思,我们不知道为什么会处理这个value。map有key、value,输出了key、value,有时候还会合并,reduce处理完毕之后又输出了key、value。这让我们产生了困惑,分不清。 mapreduce是一种编程模型,那么它能干什么,对我有什么用。它的原理是什么,为什么我们编写了map函数,reduce函数就可以在多台机器上运行。 这些问题或许都给初学者带来了困扰。是的,这些问题同样也困扰了我,这里写出来分享给大家,避免走同样的弯路。 面对mapreduce,有一篇文章,这里总结的很好,包括:该如何入门,该如何理解mapreduce,该如何练习mapreduce,该如何运用mapreduce。这里面介绍的很全。

HDFS 修改默认副本数

…衆ロ難τιáo~ 提交于 2019-11-28 14:49:02
描述:将HDFS副本数修改为2 第一步:将HDFS上已有文件副本数修改为2 hdfs dfs -setrep 2 -R -w / 第二步:修改dfs.replication值为2(页面上操作),然后重启HDFS hdfs-site.xml文件: <property>   <name>dfs.replication</name>   <value>2</value> </property> 第三步:修改副本数之后进行核对 hdfs fsck / -files -blocks 第四步、手动创建一个文件,上传至HDFS,观察其副本数 如果副本数还是3,首先确认副本参数是否已经生效(第三步的命令中可以查看), 如果没有问题,重新下载客户端,在试试 来源: https://www.cnblogs.com/yfb918/p/11410600.html

Debian下Hadoop 3.12 集群搭建

最后都变了- 提交于 2019-11-28 13:45:07
Debian系统配置 我这里在Vmware里面虚拟4个Debian系统,一个master,三个solver。hostname分别是 master、solver1、solver2、solver3 。对了,下面的JDK和hadoop安装配置操作都是使用 hadoop用户权限 来执行,并非root权限。 1. 静态网络的配置 编辑 /etc/network/interfaces 文件,注释自动获取IP,并添加下面内容 # The primary network interface #allow-hotplug ens33 #iface ens33 inet dhcp # static IP address auto ens33 iface ens33 inet static address 192.168.20.101 netmask 255.255.255.0 gateway 192.168.20.2 dns-nameservers 192.168.20.2 dns-nameservers 114.114.114.114 2. 修改 /etc/hosts 文件,添加如下内容 # Hadoop 192.168.20.101 master 192.168.20.102 solver1 192.168.20.103 solver2 192.168.20.104 solver3 3.

腾讯云大数据套件Hermes-MR索引插件使用总结

…衆ロ難τιáo~ 提交于 2019-11-28 11:52:48
版权声明:本文由王亮原创文章,转载请注明出处: 文章原文链接: https://www.qcloud.com/community/article/121 来源:腾云阁 https://www.qcloud.com/community Hermes是多维分析利器,使用步骤分为索引创建和数据分发两个步骤。 Hermes目前尚未集成到TBDS套件(3.0版本)中且外部有客户需要在自己部署的集群上使用Hermes组件,这里就遇到了Hermes与外部Hadoop集群的适配问题。 Hermes与某客户外部集群集成后,一次压测时(2T数据量,445604010行,477字段全索引)使用单机版的Hermes索引创建插件由于数据量过大,出现 Out of Memory 等异常现象导致索引插件程序崩溃,实际产生的数据索引量和实际数据量差距很大。基于以上考虑,数平提供了基于MR的索引创建插件,提升索引创建效率。 以下记录了基于hadoop2.2版本的MR索引插件和外部集群的适配过程。 一.集群相关组件版本 Hermes版本:hermes-2.1.0-1.x86_64 Hadoop集群版本:Hadoop 2.7.1.2.3.0.0-2557 Hermes-index-MR插件使用的Hadoop-common:hadoop-common-2.2.0.jar 二.Hermes-MR插件使用方法 1.需修改配置

零基础学习hadoop到上手工作线路指导(编程篇)

半世苍凉 提交于 2019-11-28 11:21:53
问题导读: 1.hadoop编程需要哪些基础? 2.hadoop编程需要注意哪些问题? 3.如何创建mapreduce程序及其包含几部分? 4.如何远程连接eclipse,可能会遇到什么问题? 5.如何编译hadoop源码? 阅读此篇文章,需要些基础下面两篇文章 零基础学习hadoop到上手工作线路指导(初级篇) 零基础学习hadoop到上手工作线路指导(中级篇) 如果看过的话,看这篇不成问题,此篇讲hadoop编程篇。 hadoop编程,hadoop是一个Java框架,同时也是编程的一次革命,使得传统开发运行程序由单台客户端(单台电脑)转换为可以由多个客户端运行(多台机器)运行,使得任务得以分解,这大大提高了效率。 hadoop既然是一个Java框架,因为我们必须要懂Java,网上有大量的资料,所以学习Java不是件难事。 但是学到什么程度,可能是我们零基础同学所关心的。 语言很多情况下都是相通的,如果你是学生,还处于打基础的阶段,那么难度对于你来说还是不小的。 1.初学者要求必须有理论基础,并且能够完成一个小项目,最起码能够完成几个小例子,例如图书馆里等。 初学者基本的要求: (1)懂什么是对象、接口、继续、多态 (2)必须熟悉Java语法 (3)掌握一定的常用包 (4)会使用maven下载代码 (5)会使用eclipse,包括里面的快捷键,如何打开项目 传统程序员

HDFS常用命令

牧云@^-^@ 提交于 2019-11-28 08:12:06
HDFS常用命令,虽然现在流行很多hadoop插件,直接或间接操作HDFS,但是熟悉HDFS原生操作命令也是有好处的。HDFS命令和Linux系统操作命令有很多相似之处,对熟悉Linux系统操作的人来说学习很简单,所以大数据入门首先学习Linux系统。hadoop fs 和hdfs dfs 两种命令都可以操作执行。 su hdfs ----进入hdfs exit --退出 #hdfs dfs -help [com]                      --查看hdfs帮助 #export HADOOP_USER_NAME=hdfs              --设置hadoop_user_name环境变量,执行命令时可以用hdfs dfs代替 hadoop fs #hdfs dfs -chown [-R] root:root filepath              --修改文件或文件夹组 #hdfs dfs -chmod [-R] o-r /dir                   --修改dir目录权限 #hdfs dfs -chgrp [-R] admin /dir                  --修改dir目录所在组,改为admin #hdfs dfs -ls /    #hadoop fs -ls /                --查看根目录文件