hdfs命令 | 易学教程

Hadoop 分布式集群搭建 & 配置

阅读更多关于 Hadoop 分布式集群搭建 & 配置

一. 安装Java Java下载官网下载合适的jdk,本人使用的是 jdk-7u79-linux-x64.tar.gz ,接下来就以该版本的jdk为例，进行Java环境变量配置创建Java目录在/usr/local目录下创建java目录，用于存放解压的jdk cd /usr/local mkdir java 解压jdk 进入java目录 cd java tar zxvf jdk-7u79-linux-x64.tar.gz 配置环境变量编辑profile文件 cd /etc vim profile 在文件末尾追加以下配置 export JAVA_HOME=/usr/local/java/jdk1.7.0_79 export JRE_HOME=/usr/local/java/jdk1.7.0_79/jre export PATH=$PATH:/usr/local/java/jdk1.7.0_79/bin export CLASSPATH=./:/usr/local/java/jdk1.7.0_79/lib:/usr/local/jdk7/jdk1.7.0_79/jre/lib 刷新profile文件 source /etc/profile 二. 安装Hadoop 下载Hadoop Hadoop Down Page 根据需求选择合适的版本进行下载，本人下载的是 hadoop-2

Hadoop 伪分布式模式安装

阅读更多关于 Hadoop 伪分布式模式安装

Hadoop简介 Hadoop由Apache基金会开发的分布式系统基础架构，是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠，高扩展，高效性，高容错等优点。Hadoop 框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算。此外，Hadoop还包括了Hive，Hbase，ZooKeeper，Pig，Avro，Sqoop，Flume，Mahout等项目。 Hadoop的运行模式分为3种：本地运行模式，伪分布运行模式，完全分布运行模式。本地模式（local mode）这种运行模式在一台单机上运行，没有HDFS分布式文件系统，而是直接读写本地操作系统中的文件系统。在本地运行模式（local mode）中不存在守护进程，所有进程都运行在一个JVM上。单机模式适用于开发阶段运行MapReduce程序，这也是最少使用的一个模式。伪分布模式这种运行模式是在单台服务器上模拟Hadoop的完全分布模式，单机上的分布式并不是真正的分布式，而是使用线程模拟的分布式。在这个模式中，所有守护进程(NameNode，DataNode，ResourceManager，NodeManager，SecondaryNameNode

Spark系列(五)IDEA编写及调试Spark的WordCount程序

阅读更多关于 Spark系列(五)IDEA编写及调试Spark的WordCount程序

使用IDEA编写Spark程序的前提条件是IDEA已经配置好Scala的编写环境，可以参考 Scala–IDEA配置及maven项目创建在这里，我们以hadoop的 wordcount 为例，编写Scala程序，以本地模式和 Yarn模式分别测试程序。Spark程序在开发的时候，使用IDEA编写程序及调试过程如下：一、项目创建 1、创建Scala的Maven项目，pom.xml文件如下所示： < properties > < log4j.version > 1.2.17 </ log4j.version > < slf4j.version > 1.7.22 </ slf4j.version > < spark.version > 2.1.1 </ spark.version > < scala.version > 2.11.8 </ scala.version > </ properties > < dependencies >  < dependency > < groupId > org.slf4j </ groupId > < artifactId > jcl-over-slf4j </ artifactId > < version > ${slf4j.version} </ version > </ dependency > <

HDFS机制与基本使用

阅读更多关于 HDFS机制与基本使用

1.1提到大数据，必然联系到hadoop ，作为大数据计算框架，必然有两个基本单元存储与计算。其一存储用到了HDFS（分布式文件存储系统）多机存储必然涉及到分布式与并行计算 2.1Hadoop中linux命令的使用 2.1.1启动hadoop，便于后面测试　　　　 2.1.2 hadoop fs -help rm 　　查看一个命令的使用方法 2.1.3 hadoop fs -ls / 　　显示目录信息 2.1.4 hadoop fs -mkdir /usr/lcoal/newfolder_1 　　创建一个工作目录 2.1.5 hadoop fs -moveFromLocal 　　从本地剪贴到hdfs 　　补充touch 选项文件路径（用途：创建文件或者修改文件或者目录的时间戳） 2.1.6 hadoop fs -appendToFile ximen.txt 　　追加一个文件到已经存在的文件末尾 2.1.7 Hadoop fs -cat xxx.txt 　　显示一个文件的内容 2.1.8 hadoop fs -tail xxx.txt 　　显示一个文件的末尾 2.1.9 adoop fs -chgrp xxx 　　hadoop fs -chown xxx 　　hadoop fs -chmod xxx 　　同上修改Linux的组，用户，自己的权限？ 2.1.10

Hadoop 2.2.0 (YARN)搭建笔记

阅读更多关于 Hadoop 2.2.0 (YARN)搭建笔记

最近工作需要，摸索着搭建了Hadoop 2.2.0(YARN)集群，中间遇到了一些问题，在此记录，希望对需要的同学有所帮助。本篇文章不涉及hadoop2.2的编译，编译相关的问题在另外一篇文章《hadoop 2.2.0 源码编译笔记》中说明，本篇文章我们假定已经获得了hadoop 2.2.0的64bit发行包。由于spark的兼容问题，我们后面使用了Hadoop 2.0.5-alpha的版本（2.2.0是稳定版本）， 2.0.5的配置有一点细微的差别，文中有特别提示。 1. 简介【本节摘自 http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 】 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（HDFS，Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。　　对于Hadoop的集群来讲，可以分成两大类角色：Master和Salve。一个 HDFS 集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件系统的访问操作

大数据之--------hadoop存储(HDFS)

阅读更多关于大数据之--------hadoop存储(HDFS)

Hadoop 的存储系统是 HDFS(Hadoop Distributed File System)分布式文件系统，对外部客户端而言，HDFS 就像一个传统的分级文件系统，可以进行创建、删除、移动或重命名文件或文件夹等操作，与 Linux 文件系统类似。 Client客户端文件切片,文件上传的时候,Client对上传的文件进行切片成一个一个block,然后进行存储与namenode交互,获取文件位置信息与datanode交互,读取或写入数据 Client 提供一些命令来管理和访问HDFS，比如启动或者关闭HDFS。 namenode 管理HDFS的名称空间管理数据块的映射信息处理副本策略处理客户端的请求作用: 1:namenode的元数据信息(文件名,目录,属性,每个文件的块列表) 2:namenode文件操作 namenode负责文件元数据的操作 3:namenode副本机制文件的副本具体放在哪些datanode上是由namenode决定的 4:namenode心跳机制全权管理数据块的复制,周期性的接受心跳和块状态报告信息,每十分钟发送一次如果超过这个时间没有接受到请求会认为datanode已近宕机,会把数据块重新复制,块状态的报告包含所有数据块的列表每一小时发送一次 datanode 存储实际的数据块执行数据块的读/写操作作用: 1

hadoop高可用安装和原理详解

阅读更多关于 hadoop高可用安装和原理详解

本篇主要从hdfs的namenode和resourcemanager的高可用进行安装和原理的阐述。一、HA安装 1、基本环境准备 1.1.1、centos7虚拟机安装，详情见 VMware安装Centos7虚拟机 1.1.2、关闭防火墙 systemctl stop firewalld.service systemctl disable firewalld.service 1.1.3、修改selinux vim /etc/selinux/config 将SELINUX=enforcing改为SELINUX=disabled [hadoop@lgh2 ~]$ cat /etc/selinux/config # This file controls the state of SELinux on the system. # SELINUX= can take one of these three values: # enforcing - SELinux security policy is enforced. # permissive - SELinux prints warnings instead of enforcing. # disabled - No SELinux policy is loaded. SELINUX=disabled # SELINUXTYPE= can

hadoop-安装

阅读更多关于 hadoop-安装

由于篇幅较大，废话不多说，直奔主题。 hadoop 安装同样可分为单机模式、伪分布式、完全分布式本文主要介绍完全分布式，环境 centos 6.5，hadoop-2.6.5 第一步：配置好 4 台虚拟机或者物理机，具体步骤参考我的其他博客第二步：查看主机名，并修改　　　　　　　　　　【务必记住修改主机名的方法，很多地方要用，不过不同版本方法不同】 [root@localhost ~]# hostname localhost.localdomain [root@localhost ~]# vi /etc/sysconfig/network [root@localhost ~]# hostname localhost.localdomain 修改为 NETWORKING=yes HOSTNAME=hadoop10 由于这种方法需要重启才能生效，故再查 hostname 没有变化，这里我不想重启，直接使用临时更改命令 [root@localhost ~]# hostname hodoop10 [root@localhost ~]# hostname hodoop10 重启失效依次修改 4 台电脑的 hostname 第三步：编辑 IP 与 hostname 的映射表 /etc/hosts 这个文件和 hostname 的修改没有任何关系，他需要放在集群中的每个节点

Hadoop（一）MapReduce demo

阅读更多关于 Hadoop（一）MapReduce demo

Mapreduce基础编程模型：将一个大任务拆分成一个个小任务，再进行汇总。 MapReduce是分两个阶段：map阶段：拆；reduce阶段：聚合。 hadoop环境安装安装： 1、解压 : tar -zxvf hadoop-2.4.1.tar.gz -C /root/training/ 2、设置环境变量： vi ~/.bash_profile HADOOP_HOME=/root/training/hadoop-2.7.3 export HADOOP_HOME PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH export PATH 生效环境变量： source ~/.bash_profile 第一节：Hadoop的目录结构第二节：Hadoop的本地模式 1、特点：不具备HDFS，只能测试MapReduce程序 2、修改hadoop-env.sh（echo $JAVA_HOME查出jdk安装路径：xx，将export JAVA_HOME=${JAVA_HOME}替换成export JAVA_HOME=xx）修改第25行：export JAVA_HOME=/usr/java/jdk8u202-b08（行号可通过：esc后再set number来显示） 3、演示Demo: $HADOOP_HOME/share/hadoop

java.io.IOException:org.apache.hadoop.fs.ChecksumException: Checksum error 校验和（checksum）出现异常

阅读更多关于 java.io.IOException:org.apache.hadoop.fs.ChecksumException: Checksum error 校验和（checksum）出现异常

在查询hive中的数据时，报如下错误：错误原因：从提示用可以看出是：CheckSumException ，即校验和异常，出现该错误的原因：存储的数据与hadoop系统为该数据生成的校核和数据不一致导致错误，说白了，就是你存储的数据出现问题了，如：人为手动更改了数据，网络不稳定以及硬件损坏等因素导致的。本博客是我自己为了复现这个错误，特地更改了hive上的源数据。如上图，我是通过notepad++更改了源数据，不是通过hive命令更改了数据，导致crc文件并没有做相应的更新，当我再次在hive使用select查询语句查询源数据的时候，就报了校验和异常。说明源数据遭到了损坏。此时，为了能查询到数据，直接将crc文件删除，再使用select查询语句即可查询到响应的数据。为了详细了解hadoop的校验原理，参考下面的博客：博客链接： https://blog.csdn.net/lb812913059/article/details/79718303 博客标题：Hadoop数据完整性与CheckSum校验原理博客原文：一、HDFS数据完整性用户肯定都希望系统在存储和处理数据时，数据不会有任何丢失或损坏。但是，受网络不稳定、硬件损坏等因素，IO操作过程中难免会出现数据丢失或脏数据，难免会出现数据丢失或脏数据，数据传输的量越大，出现错误的概率就越高。

订阅 hdfs命令