hdfs命令 | 易学教程

Hadoop分布式集群环境搭建

阅读更多关于 Hadoop分布式集群环境搭建

分布式环境搭建之环境介绍之前我们已经介绍了如何在单机上搭建伪分布式的Hadoop环境，而在实际情况中，肯定都是多机器多节点的分布式集群环境，所以本文将简单介绍一下如何在多台机器上搭建Hadoop的分布式环境。我这里准备了三台机器，IP地址如下： 192.168.77.128 192.168.77.130 192.168.77.134 首先在这三台机器上编辑 /etc/hosts 配置文件，修改主机名以及配置其他机器的主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.77.128 hadoop000 192.168.77.130 hadoop001 192.168.77.134 hadoop002 [root@localhost ~]# reboot 三台机器在集群中所担任的角色： hadoop000作为NameNode、DataNode、ResourceManager、NodeManager hadoop001作为DataNode、NodeManager hadoop002也是作为DataNode、NodeManager 配置ssh免密码登录集群之间的机器需要相互通信，所以我们得先配置免密码登录。在三台机器上分别运行如下命令，生成密钥对： [root@hadoop000 ~]# ssh-keygen -t

Hadoop 2.9.1 on Ubuntu 16.04

阅读更多关于 Hadoop 2.9.1 on Ubuntu 16.04

Hadoop 2.9.1 on Ubuntu 16.04 环境配置 3台机器虚拟机 ubuntu16.04 10.64.104.177 hadoop-master 10.64.104.178 hadoop-node1 10.64.104.179 hadoop-node2 1、安装jdk # 三台机器均要安装 sudo apt-get update sudo apt-get install default-jdk java -version openjdk version "1.8.0_181" OpenJDK Runtime Environment (build 1.8.0_181-8u181-b13-0ubuntu0.16.04.1-b13) OpenJDK 64-Bit Server VM (build 25.181-b13, mixed mode) # 添加JAVA_HOME cat << EOF >> ~/.bashrc #HADOOP VARIABLES START export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export HADOOP_INSTALL=/usr/local/hadoop export PATH=$PATH:$HADOOP_INSTALL/bin export PATH=$PATH:$HADOOP

Java操作HDFS开发环境搭建以及HDFS的读写流程

阅读更多关于 Java操作HDFS开发环境搭建以及HDFS的读写流程

Java操作HDFS开发环境搭建在之前我们已经介绍了如何在Linux上进行 HDFS伪分布式环境的搭建，也介绍了hdfs中一些常用的命令。但是要如何在代码层面进行操作呢？这是本节将要介绍的内容： 1.首先使用IDEA创建一个maven工程： maven默认是不支持cdh的仓库的，需要在pom.xml中配置cdh的仓库，如下： <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository> </repositories> 注意：如果你maven的settings.xml文件中，将 mirrorOf 的值配置成了 * 的话，那么就需要将其修改为 *,!cloudera 或 central ，因为 * 表示覆盖所有仓库地址会导致maven无法从cloudera的仓库下载依赖包，而 *,!cloudera 表示不覆盖id为cloudera的仓库，关于这个问题可以自行了解一下。具体配置如下示例： <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content

Hadoop集成Spring的使用

阅读更多关于 Hadoop集成Spring的使用

Spring Hadoop简单概述 Spring Hadoop官网地址如下： https://projects.spring.io/spring-hadoop/ Spring Hadoop简化了Apache Hadoop，提供了一个统一的配置模型以及简单易用的API来使用HDFS、MapReduce、Pig以及Hive。还集成了其它Spring生态系统项目，如Spring Integration和Spring Batch.。特点：支持创建Hadoop应用，配置使用依赖注入和运行标准的java应用程序和使用Hadoop的命令行工具。集成Spring Boot，可以简单地创建Spring应用程序去连接HDFS进行读写数据。创建和配置，使用java的MapReduce，Streaming，Hive，Pig或HBase。扩展Spring Batch支持创建基于Hadoop的工作流的任何类型的Hadoop Job或HDFS的操作。脚本HDFS操作使用任何基于JVM的脚本语言。基于SpringBoot轻松地创建自定义的基础应用，应用可以部署在YARN上。支持DAO，可以使用模板或回调的方式操作Hbase 支持Hadoop安全验证 Spring Hadoop2.5的官方文档及API地址： https://docs.spring.io/spring-hadoop/docs/2.5

Hadoop2.0分布式集群的平台搭建

阅读更多关于 Hadoop2.0分布式集群的平台搭建

一、Hadoop集群安装前的准备基础环境四台Centos6.5 IP地址： 192.168.174.128 192.168.174.129 192.168.174.130 192.168.174.131 四台主机新建hadoop用户并实现ssh免密登陆 iptables关闭和selinux为disabled 1.修改主机名和ip地址映射为了后面操作方便，修改主机名分别为hadoop01、hadoop02、hadoop03、hadoop04。修改主机名只需修改/etc/sysconfig/network文件hostname行即可，这里博主不再复述。然后修改/etc/hosts文件，将ip地址和主机名的映射写入进去，这样，后面其它主机就可根据主机名去对应ip地址。 2.安装JDK Hadoop的核心组成之一MapReduce是基于java的，因此需要配置基本的java环境。JDK安装十分简单，前面也多次提到。下载jdk安装包，解压jdk到指定目录。 tar -zxvf jdk-8u181-linux-x64.tar.gz -C /usr/local/java 修改环境变量，进入/etc/profile export JAVA_HOME=/usr/local/java/jdk1.8.0_181 export PATH=$PATH:$JAVA_HOME/bin 重新加载环境变量生效

hadoop设计思路和目标

阅读更多关于 hadoop设计思路和目标

本文主要是作者自己的学习过程，主要是对原文的翻译及理解，某些地方根据自己的理解，在表述上稍做些改动，以便更易于理解。官方原文 hdfs与现有的分布式文件系统有许多相似之处。但是，与其他分布式文件系统的区别非常明显。HDFS是高度容错的，设计用于部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问，适用于具有大数据集的应用程序。HDFS放宽了一些POSIX要求，以支持对文件系统数据的流式访问。硬件故障首先明确：硬件故障是常态而不是意外。检测到错误并且自动的，快速的恢复是hdfs的核心架构目标流式数据访问运行在HDFS上的应用程序需要对其数据集进行流访问。它们不是通常在通用文件系统上运行的通用应用程序。HDFS更多的是为批处理而设计的，而不是用户的交互使用。重点是数据访问的高吞吐量，而不是数据访问的低延迟。POSIX强加了许多针对HDFS的应用程序不需要的硬需求大数据集运行在HDFS上的应用程序拥有大型数据集。HDFS中的一个典型文件的大小是gb到tb。因此，HDFS被调优为支持大文件。它应该提供高聚合数据带宽，并可扩展到单个集群中的数百个节点。它应该在一个实例中支持数千万个文件。简单一致性模型 HDFS应用需要文件的write-once-read-many访问模型。文件一旦被创建，写和关闭操作出了追加和截断，无需修改操作。支持将内容附加到文件末尾

Hadoop 之 HDFS

阅读更多关于 Hadoop 之 HDFS

1 HDFS 概述 1.1 HDFS 产出背景及定义随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。 HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。 1.2 HDFS优缺点优点：高容错性数据自动保存多个副本。它通过增加副本的形式，提高容错性某一个副本丢失以后，它可以自动恢复适合处理大数据可构建在廉价机器上，通过多副本机制，提高可靠性缺点：不适合低延时数据访问，比如毫秒级的存储数据无法高效的对大量小文件进行存储不支持并发写入、文件随机修改 1.3 HDFS组成架构 1.4 HDFS文件块大小 HDFS 中的文件在物理上是分块存储（Block），块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小在Hadoop2.x 版本中是 128M，老版本中是 64M。如果寻址时间为 100ms，即查找目标

订阅 hdfs命令