hdfs命令

Hadoop分布式集群环境搭建

旧城冷巷雨未停 提交于 2019-11-25 22:43:57
分布式环境搭建之环境介绍 之前我们已经介绍了如何在单机上搭建伪分布式的Hadoop环境,而在实际情况中,肯定都是多机器多节点的分布式集群环境,所以本文将简单介绍一下如何在多台机器上搭建Hadoop的分布式环境。 我这里准备了三台机器,IP地址如下: 192.168.77.128 192.168.77.130 192.168.77.134 首先在这三台机器上编辑 /etc/hosts 配置文件,修改主机名以及配置其他机器的主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.77.128 hadoop000 192.168.77.130 hadoop001 192.168.77.134 hadoop002 [root@localhost ~]# reboot 三台机器在集群中所担任的角色: hadoop000作为NameNode、DataNode、ResourceManager、NodeManager hadoop001作为DataNode、NodeManager hadoop002也是作为DataNode、NodeManager 配置ssh免密码登录 集群之间的机器需要相互通信,所以我们得先配置免密码登录。在三台机器上分别运行如下命令,生成密钥对: [root@hadoop000 ~]# ssh-keygen -t

Hadoop 2.9.1 on Ubuntu 16.04

一世执手 提交于 2019-11-25 22:43:40
Hadoop 2.9.1 on Ubuntu 16.04 环境配置 3台机器虚拟机 ubuntu16.04 10.64.104.177 hadoop-master 10.64.104.178 hadoop-node1 10.64.104.179 hadoop-node2 1、安装jdk # 三台机器均要安装 sudo apt-get update sudo apt-get install default-jdk java -version openjdk version "1.8.0_181" OpenJDK Runtime Environment (build 1.8.0_181-8u181-b13-0ubuntu0.16.04.1-b13) OpenJDK 64-Bit Server VM (build 25.181-b13, mixed mode) # 添加JAVA_HOME cat << EOF >> ~/.bashrc #HADOOP VARIABLES START export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export HADOOP_INSTALL=/usr/local/hadoop export PATH=$PATH:$HADOOP_INSTALL/bin export PATH=$PATH:$HADOOP

Java操作HDFS开发环境搭建以及HDFS的读写流程

本秂侑毒 提交于 2019-11-25 22:43:22
Java操作HDFS开发环境搭建 在之前我们已经介绍了如何在Linux上进行 HDFS伪分布式环境的搭建 ,也介绍了hdfs中一些常用的命令。但是要如何在代码层面进行操作呢?这是本节将要介绍的内容: 1.首先使用IDEA创建一个maven工程: maven默认是不支持cdh的仓库的,需要在pom.xml中配置cdh的仓库,如下: <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository> </repositories> 注意: 如果你maven的settings.xml文件中,将 mirrorOf 的值配置成了 * 的话,那么就需要将其修改为 *,!cloudera 或 central ,因为 * 表示覆盖所有仓库地址会导致maven无法从cloudera的仓库下载依赖包,而 *,!cloudera 表示不覆盖id为cloudera的仓库,关于这个问题可以自行了解一下。具体配置如下示例: <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content

Hadoop集成Spring的使用

拥有回忆 提交于 2019-11-25 21:08:15
Spring Hadoop简单概述 Spring Hadoop官网地址如下: https://projects.spring.io/spring-hadoop/ Spring Hadoop简化了Apache Hadoop,提供了一个统一的配置模型以及简单易用的API来使用HDFS、MapReduce、Pig以及Hive。还集成了其它Spring生态系统项目,如Spring Integration和Spring Batch.。 特点: 支持创建Hadoop应用,配置使用依赖注入和运行标准的java应用程序和使用Hadoop的命令行工具。 集成Spring Boot,可以简单地创建Spring应用程序去连接HDFS进行读写数据。 创建和配置,使用java的MapReduce,Streaming,Hive,Pig或HBase。 扩展Spring Batch支持创建基于Hadoop的工作流的任何类型的Hadoop Job或HDFS的操作。 脚本HDFS操作使用任何基于JVM的脚本语言。 基于SpringBoot轻松地创建自定义的基础应用,应用可以部署在YARN上。 支持DAO,可以使用模板或回调的方式操作Hbase 支持Hadoop安全验证 Spring Hadoop2.5的官方文档及API地址: https://docs.spring.io/spring-hadoop/docs/2.5

Hadoop2.0分布式集群的平台搭建

為{幸葍}努か 提交于 2019-11-25 20:47:15
一、Hadoop集群安装前的准备 基础环境 四台Centos6.5 IP地址: 192.168.174.128 192.168.174.129 192.168.174.130 192.168.174.131 四台主机新建hadoop用户并实现ssh免密登陆 iptables关闭和selinux为disabled 1.修改主机名和ip地址映射 为了后面操作方便,修改主机名分别为hadoop01、hadoop02、hadoop03、hadoop04。修改主机名只需修改/etc/sysconfig/network文件hostname行即可,这里博主不再复述。然后修改/etc/hosts文件,将ip地址和主机名的映射写入进去,这样,后面其它主机就可根据主机名去对应ip地址。 2.安装JDK Hadoop的核心组成之一MapReduce是基于java的,因此需要配置基本的java环境。JDK安装十分简单,前面也多次提到。下载jdk安装包,解压jdk到指定目录。 tar -zxvf jdk-8u181-linux-x64.tar.gz -C /usr/local/java 修改环境变量,进入/etc/profile export JAVA_HOME=/usr/local/java/jdk1.8.0_181 export PATH=$PATH:$JAVA_HOME/bin 重新加载环境变量生效

hadoop设计思路和目标

女生的网名这么多〃 提交于 2019-11-25 20:46:52
本文主要是作者自己的学习过程,主要是对原文的翻译及理解,某些地方根据自己的理解,在表述上稍做些改动,以便更易于理解。 官方原文 hdfs与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的区别非常明显。HDFS是高度容错的,设计用于部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大数据集的应用程序。HDFS放宽了一些POSIX要求,以支持对文件系统数据的流式访问。 硬件故障 首先明确:硬件故障是常态而不是意外。检测到错误并且自动的,快速的恢复是hdfs的核心架构目标 流式数据访问 运行在HDFS上的应用程序需要对其数据集进行流访问。它们不是通常在通用文件系统上运行的通用应用程序。HDFS更多的是为批处理而设计的,而不是用户的交互使用。 重点是数据访问的高吞吐量,而不是数据访问的低延迟 。POSIX强加了许多针对HDFS的应用程序不需要的硬需求 大数据集 运行在HDFS上的应用程序拥有大型数据集。HDFS中的一个典型文件的大小是gb到tb。因此,HDFS被调优为支持大文件。它应该提供高聚合数据带宽,并可扩展到单个集群中的数百个节点。它应该在一个实例中支持数千万个文件。 简单一致性模型 HDFS应用需要文件的write-once-read-many访问模型。文件一旦被创建,写和关闭操作出了追加和截断,无需修改操作。支持将内容附加到文件末尾

Hadoop 之 HDFS

北战南征 提交于 2019-11-25 20:46:35
1 HDFS 概述 1.1 HDFS 产出背景及定义 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。 1.2 HDFS优缺点 优点: 高容错性 数据自动保存多个副本。它通过增加副本的形式,提高容错性 某一个副本丢失以后,它可以自动恢复 适合处理大数据 可构建在廉价机器上,通过多副本机制,提高可靠性 缺点: 不适合低延时数据访问,比如毫秒级的存储数据 无法高效的对大量小文件进行存储 不支持并发写入、文件随机修改 1.3 HDFS组成架构 1.4 HDFS文件块大小 HDFS 中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在Hadoop2.x 版本中是 128M,老版本中是 64M。 如果寻址时间为 100ms,即查找目标