hdfs命令 | 易学教程

Sqoop 数据迁移工具

阅读更多关于 Sqoop 数据迁移工具

Sqoop 数据迁移工具 sqoop : SQL to hadOOP 两个功能: 1、 RDB 向HDFS导入 2、 HDFS向RDB导入注：拷贝mysql-connector.jar 和 json.jar 到sqoop/lib目录下 HDFS导入使用命令很长，一般写成shell脚本。（运行需要启动 HDFS 、Yarn[mapreduce作业必须]、SQL） COLUMN 、WHERE限定 sqoop import \ #import指从sql导入到hdfs --connect jdbc:mysql://localhost:3306/test \ # 可选 --driver com.mysql.jdbc.Driver #test是目标数据库名 --table customers \ #目标表名 --columns "fname,lname" \ #可以使用columns指定字段 --where "order_date>'2019-1-1'" \ #可以使用where筛选原数据 --username root \ #数据库登陆用户名 --password rw \ #密码 --target-dir /sqoop/test_rdb/customers \ #hdfs 的目标路径，不指定的话会放在/user/【username】/【tbl_name】下 --delete

HDFS介绍~超详细

阅读更多关于 HDFS介绍~超详细

HDFS（Hadoop Distributed File System） (1) HDFS--Hadoop分布式文件存储系统源自于Google的GFS论文，HDFS是GFS的克隆版 HDFS是Hadoop中数据存储和管理的基础他是一个高容错的系统，能够自动解决硬件故障，eg：硬盘损坏，HDFS可以自动修复，可以运行于低成本的通用硬件上（低廉的硬盘，4TB是1200元左右）一次写入多次读取，不支持修改操作，数据按块切分（按128M切块），按位存储（就近原则） (2) HDFS底层架构 - 分布式文件存储系统基于物理层存储的分布式（用多台虚拟机来存储咱们的存在）基于客户端/服务器模式通常情况下HDFS都会提供容错和备份机制通常情况下：HDFS都是基于本地系统的文件存储系统 (3) 分布式文件系统的特点（优缺点）优点：高可靠：按位存储，数据分配就近原则，会把数据分配到离他最近的DataNode,所以值得人们信赖高扩展：集群节点可以根据业务需求随时扩展和缩减高效性：可以在各个集群集群节点之间动态的移动数据，并且保证集群间各节点之间的动态平衡，因此处理速度非常快高容错： Hadoop能够自动保存多个副本（默认3份，可修改），并且能够将失败的任务自动重新分配，解决硬件故障成本低：不适合高效存储大量小文件不适合低延迟的数据访问不支持多用户的写入和修改操作

Ubuntu 17.10配置Hadoop+Spark环境

阅读更多关于 Ubuntu 17.10配置Hadoop+Spark环境

一、前言最近导师带的项目是与大数据相关，感觉这几年大数据技术还挺火的，就想着也去学一下，丰富自己的技能栈。本文主要讲的是hadoop+spark的环境搭建,然后使用自带的examples测试环境，这里不涉及原理介绍。二、Hadoop的三种运行模式介绍 2.1、单机模式也叫独立模式（Local或Standalone Mode） 2.2、伪分布式模式（Pseudo-Distrubuted Mode） Hadoop的守护进程运行在本机机器上，模拟一个小规模的集群在一台主机上模拟多主机。 Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行，是相互独立的Java进程。在这种模式下，Hadoop使用的是分布式文档系统，各个作业也是由JobTraker服务，来管理的独立进程。在单机模式之上增加了代码调试功能，允许检查内存使用情况，HDFS输入输出，以及其他的守护进程交互。类似于完全分布式模式，因此，这种模式常用来开发测试Hadoop进程的执行是否正确。修改3个配置文档：core-site.xml（Hadoop集群的特性，作用于全部进程及客户端）、hdfs-site.xml（配置HDFS集群的工作属性）、mapred-site.xml（配置MapReduce集群的属性）格式化文档系统 2.3、

Hadoop Getting Started

阅读更多关于 Hadoop Getting Started

Hadoop Getting Started 文章导航 30 July 2015 更多一、关于 Hadoop 1 Hadoop是什么: Hadoop是Apache的开源的分布式存储以及分布式计算平台官网 2 Hadoop的两个核心组成: HDFS : 分布式文档系统，存储海量的数据 MapReduce : 并行处理框架,实现任务分解和调度 3 Hadoop的用途: 搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务. 搜索引擎日志分析商业智能数据挖掘 4 Hadoop的优势: 1.高扩展 2.低成本 3.成熟的生态圈(Hadoop Ecosysten) 5 Hadoop的生态系统及版本: HDFS + MapReduce + 开源工具 1.HIVE : 只需要编写简单的SQL语句, 转化成Hadoop任务 2.HBASE : 存储结构化数据的分布式数据库. 和传统的关系型数据库区别, Hbase放弃失特性，追求更高的扩展和HDFS区别: Hbase提供数据的随机读写和实时访问, 实现对表数据的读写功能. 3.Zookeeper : 监控Hadoop集群的状态，管理Hadoop集群的配置… 二、Hadoop的安装(Ubuntu 14.04) Step 1: 准备Linux, 这里用Ubuntu 14.04 Step 2: 安装JDK, 这里用OpenJDK 1,7

零基础学习hadoop到上手工作线路指导（中级篇）

阅读更多关于零基础学习hadoop到上手工作线路指导（中级篇）

此篇是在零基础学习hadoop到上手工作线路指导（初级篇）的基础，一个继续总结。五一假期：在写点内容，也算是总结。上面我们会了基本的编程，我们需要对hadoop有一个更深的理解： hadoop分为 hadoop1.X 、 hadoop2.X ，并且还有 hadoop生态系统。这里只能慢慢介绍了。一口也吃不成胖子。 hadoop 1.x 分为 mapreduce 与 hdfs 其中mapreduce是很多人都需要迈过去的槛，它比较难以理解，我们有时候即使写出了mapreduce程序，但是还是摸不着头脑。我们不知道key代表什么意思，我们不知道为什么会处理这个value。map有key、value，输出了key、value，有时候还会合并，reduce处理完毕之后又输出了key、value。这让我们产生了困惑，分不清。 mapreduce是一种编程模型，那么它能干什么，对我有什么用。它的原理是什么，为什么我们编写了map函数，reduce函数就可以在多台机器上运行。这些问题或许都给初学者带来了困扰。是的，这些问题同样也困扰了我，这里写出来分享给大家，避免走同样的弯路。面对mapreduce，有一篇文章，这里总结的很好，包括：该如何入门，该如何理解mapreduce，该如何练习mapreduce，该如何运用mapreduce。这里面介绍的很全。

HDFS 修改默认副本数

阅读更多关于 HDFS 修改默认副本数

描述：将HDFS副本数修改为2 第一步：将HDFS上已有文件副本数修改为2 hdfs dfs -setrep 2 -R -w / 第二步：修改dfs.replication值为2（页面上操作），然后重启HDFS hdfs-site.xml文件： <property> 　　<name>dfs.replication</name> 　　<value>2</value> </property> 第三步：修改副本数之后进行核对 hdfs fsck / -files -blocks 第四步、手动创建一个文件，上传至HDFS，观察其副本数如果副本数还是3，首先确认副本参数是否已经生效(第三步的命令中可以查看)，如果没有问题，重新下载客户端，在试试来源： https://www.cnblogs.com/yfb918/p/11410600.html

Debian下Hadoop 3.12 集群搭建

阅读更多关于 Debian下Hadoop 3.12 集群搭建

Debian系统配置我这里在Vmware里面虚拟4个Debian系统，一个master，三个solver。hostname分别是 master、solver1、solver2、solver3 。对了，下面的JDK和hadoop安装配置操作都是使用 hadoop用户权限来执行，并非root权限。 1. 静态网络的配置编辑 /etc/network/interfaces 文件，注释自动获取IP，并添加下面内容 # The primary network interface #allow-hotplug ens33 #iface ens33 inet dhcp # static IP address auto ens33 iface ens33 inet static address 192.168.20.101 netmask 255.255.255.0 gateway 192.168.20.2 dns-nameservers 192.168.20.2 dns-nameservers 114.114.114.114 2. 修改 /etc/hosts 文件，添加如下内容 # Hadoop 192.168.20.101 master 192.168.20.102 solver1 192.168.20.103 solver2 192.168.20.104 solver3 3.

腾讯云大数据套件Hermes-MR索引插件使用总结

阅读更多关于腾讯云大数据套件Hermes-MR索引插件使用总结

版权声明：本文由王亮原创文章，转载请注明出处: 文章原文链接： https://www.qcloud.com/community/article/121 来源：腾云阁 https://www.qcloud.com/community Hermes是多维分析利器，使用步骤分为索引创建和数据分发两个步骤。 Hermes目前尚未集成到TBDS套件（3.0版本）中且外部有客户需要在自己部署的集群上使用Hermes组件，这里就遇到了Hermes与外部Hadoop集群的适配问题。 Hermes与某客户外部集群集成后，一次压测时（2T数据量，445604010行，477字段全索引）使用单机版的Hermes索引创建插件由于数据量过大，出现 Out of Memory 等异常现象导致索引插件程序崩溃，实际产生的数据索引量和实际数据量差距很大。基于以上考虑，数平提供了基于MR的索引创建插件，提升索引创建效率。以下记录了基于hadoop2.2版本的MR索引插件和外部集群的适配过程。一.集群相关组件版本 Hermes版本：hermes-2.1.0-1.x86_64 Hadoop集群版本：Hadoop 2.7.1.2.3.0.0-2557 Hermes-index-MR插件使用的Hadoop-common：hadoop-common-2.2.0.jar 二.Hermes-MR插件使用方法 1.需修改配置

零基础学习hadoop到上手工作线路指导（编程篇）

阅读更多关于零基础学习hadoop到上手工作线路指导（编程篇）

问题导读： 1.hadoop编程需要哪些基础？ 2.hadoop编程需要注意哪些问题？ 3.如何创建mapreduce程序及其包含几部分？ 4.如何远程连接eclipse，可能会遇到什么问题？ 5.如何编译hadoop源码？阅读此篇文章，需要些基础下面两篇文章零基础学习hadoop到上手工作线路指导（初级篇）零基础学习hadoop到上手工作线路指导（中级篇）如果看过的话，看这篇不成问题，此篇讲hadoop编程篇。 hadoop编程，hadoop是一个Java框架，同时也是编程的一次革命，使得传统开发运行程序由单台客户端（单台电脑）转换为可以由多个客户端运行（多台机器）运行，使得任务得以分解，这大大提高了效率。 hadoop既然是一个Java框架，因为我们必须要懂Java，网上有大量的资料，所以学习Java不是件难事。但是学到什么程度，可能是我们零基础同学所关心的。语言很多情况下都是相通的，如果你是学生，还处于打基础的阶段，那么难度对于你来说还是不小的。 1.初学者要求必须有理论基础，并且能够完成一个小项目，最起码能够完成几个小例子，例如图书馆里等。初学者基本的要求：（1）懂什么是对象、接口、继续、多态（2）必须熟悉Java语法（3）掌握一定的常用包（4）会使用maven下载代码（5）会使用eclipse，包括里面的快捷键，如何打开项目传统程序员

HDFS常用命令

阅读更多关于 HDFS常用命令

HDFS常用命令，虽然现在流行很多hadoop插件，直接或间接操作HDFS，但是熟悉HDFS原生操作命令也是有好处的。HDFS命令和Linux系统操作命令有很多相似之处，对熟悉Linux系统操作的人来说学习很简单，所以大数据入门首先学习Linux系统。hadoop fs 和hdfs dfs 两种命令都可以操作执行。 su hdfs ----进入hdfs exit --退出 #hdfs dfs -help [com] 　　　　　　　　　　　　　　　　　　　　 --查看hdfs帮助 #export HADOOP_USER_NAME=hdfs 　　　　　　　　　　　　 --设置hadoop_user_name环境变量，执行命令时可以用hdfs dfs代替 hadoop fs #hdfs dfs -chown [-R] root:root filepath 　　　　　　　　　　　　 --修改文件或文件夹组 #hdfs dfs -chmod [-R] o-r /dir 　　　　　　　　　　　　　　　　　 --修改dir目录权限 #hdfs dfs -chgrp [-R] admin /dir 　　　　　　　　　　　　　　　　 --修改dir目录所在组，改为admin #hdfs dfs -ls / 　　 #hadoop fs -ls / 　　　　　　　　　　　　　　　--查看根目录文件

订阅 hdfs命令