hdfs命令

Hadoop 分布式集群搭建 & 配置

Deadly 提交于 2019-11-30 12:21:27
一. 安装Java Java下载 官网下载合适的jdk,本人使用的是 jdk-7u79-linux-x64.tar.gz ,接下来就以该版本的jdk为例,进行Java环境变量配置 创建Java目录 在/usr/local目录下创建java目录,用于存放解压的jdk cd /usr/local mkdir java 解压jdk 进入java目录 cd java tar zxvf jdk-7u79-linux-x64.tar.gz 配置环境变量 编辑profile文件 cd /etc vim profile 在文件末尾追加以下配置 export JAVA_HOME=/usr/local/java/jdk1.7.0_79 export JRE_HOME=/usr/local/java/jdk1.7.0_79/jre export PATH=$PATH:/usr/local/java/jdk1.7.0_79/bin export CLASSPATH=./:/usr/local/java/jdk1.7.0_79/lib:/usr/local/jdk7/jdk1.7.0_79/jre/lib 刷新profile文件 source /etc/profile 二. 安装Hadoop 下载Hadoop Hadoop Down Page 根据需求选择合适的版本进行下载,本人下载的是 hadoop-2

Hadoop 伪分布式模式安装

∥☆過路亽.° 提交于 2019-11-30 12:06:46
Hadoop简介 Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠,高扩展,高效性,高容错等优点。Hadoop 框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。此外,Hadoop还包括了Hive,Hbase,ZooKeeper,Pig,Avro,Sqoop,Flume,Mahout等项目。 Hadoop的运行模式分为3种: 本地运行模式 , 伪分布运行模式 , 完全分布运行模式 。 本地模式(local mode) 这种运行模式在一台单机上运行,没有HDFS分布式文件系统,而是直接读写本地操作系统中的文件系统。在本地运行模式(local mode)中不存在守护进程,所有进程都运行在一个JVM上。单机模式适用于开发阶段运行MapReduce程序,这也是最少使用的一个模式。 伪分布模式 这种运行模式是在单台服务器上模拟Hadoop的完全分布模式,单机上的分布式并不是真正的分布式,而是使用线程模拟的分布式。在这个模式中,所有守护进程(NameNode,DataNode,ResourceManager,NodeManager,SecondaryNameNode

Spark系列(五)IDEA编写及调试Spark的WordCount程序

人走茶凉 提交于 2019-11-30 07:03:58
使用IDEA编写Spark程序的前提条件是IDEA已经配置好Scala的编写环境,可以参考 Scala–IDEA配置及maven项目创建 在这里,我们以hadoop的 wordcount 为例,编写Scala程序,以 本地模式 和 Yarn模式 分别测试程序。Spark程序在开发的时候,使用IDEA编写程序及调试过程如下: 一、项目创建 1、创建Scala的Maven项目,pom.xml文件如下所示: < properties > < log4j.version > 1.2.17 </ log4j.version > < slf4j.version > 1.7.22 </ slf4j.version > < spark.version > 2.1.1 </ spark.version > < scala.version > 2.11.8 </ scala.version > </ properties > < dependencies > <!-- Logging --> < dependency > < groupId > org.slf4j </ groupId > < artifactId > jcl-over-slf4j </ artifactId > < version > ${slf4j.version} </ version > </ dependency > <

HDFS机制与基本使用

血红的双手。 提交于 2019-11-30 06:37:15
1.1提到大数据,必然联系到hadoop ,作为大数据计算框架, 必然有两个基本单元 存储与计算。 其一存储用到了HDFS(分布式文件存储系统)多机存储必然涉及到分布式与并行计算 2.1Hadoop中linux命令的使用 2.1.1启动hadoop,便于后面测试       2.1.2 hadoop fs -help rm   查看一个命令的使用方法 2.1.3 hadoop fs -ls /   显示目录信息 2.1.4 hadoop fs -mkdir /usr/lcoal/newfolder_1   创建一个工作目录 2.1.5 hadoop fs -moveFromLocal   从本地剪贴到hdfs   补充touch 选项 文件路径(用途:创建文件或者修改文件或者目录的时间戳) 2.1.6 hadoop fs -appendToFile ximen.txt   追加一个文件到已经存在的文件末尾 2.1.7 Hadoop fs -cat xxx.txt   显示一个文件的内容 2.1.8 hadoop fs -tail xxx.txt   显示一个文件的末尾 2.1.9 adoop fs -chgrp xxx   hadoop fs -chown xxx   hadoop fs -chmod xxx   同上 修改Linux的组,用户,自己的权限? 2.1.10

Hadoop 2.2.0 (YARN)搭建笔记

拜拜、爱过 提交于 2019-11-30 06:31:45
最近工作需要,摸索着搭建了Hadoop 2.2.0(YARN)集群,中间遇到了一些问题,在此记录,希望对需要的同学有所帮助。 本篇文章不涉及hadoop2.2的编译,编译相关的问题在另外一篇文章《hadoop 2.2.0 源码编译笔记》中说明,本篇文章我们假定已经获得了hadoop 2.2.0的64bit发行包。 由于spark的兼容问题,我们后面使用了Hadoop 2.0.5-alpha的版本(2.2.0是稳定版本), 2.0.5的配置有一点细微的差别,文中有特别提示 。 1. 简介 【本节摘自 http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 】 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为 核心 的Hadoop为用户提供了系统底层细节透明的分布式基础架构。   对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个 HDFS 集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问操作

大数据之--------hadoop存储(HDFS)

笑着哭i 提交于 2019-11-30 05:53:08
Hadoop 的存储系统是 HDFS(Hadoop Distributed File System)分布式文件系统,对外部客户端而言,HDFS 就像一个传统的分级文件系统,可以进行创建、删除、移动或重命名文件或文件夹等操作,与 Linux 文件系统类似。 Client客户端 文件切片,文件上传的时候,Client对上传的文件进行切片成一个一个block,然后进行存储 与namenode交互,获取文件位置信息 与datanode交互,读取或写入数据 Client 提供一些命令来管理 和访问HDFS,比如启动或者关闭HDFS。 namenode 管理HDFS的名称空间 管理数据块的映射信息 处理副本策略 处理客户端的请求 作用: 1:namenode的元数据信息(文件名,目录,属性,每个文件的块列表) 2:namenode文件操作 namenode负责文件元数据的操作 3:namenode副本机制 文件的副本具体放在哪些datanode上是由namenode决定的 4:namenode心跳机制 全权管理数据块的复制,周期性的接受心跳和块状态报告信息,每十分钟发送一次如果超过这个时间没有接受到请求会认为datanode已近宕机,会把数据块重新复制,块状态的报告包含所有数据块的列表每一小时发送一次 datanode 存储实际的数据块 执行数据块的读/写操作 作用: 1

hadoop高可用安装和原理详解

拜拜、爱过 提交于 2019-11-30 04:34:19
本篇主要从hdfs的namenode和resourcemanager的高可用进行安装和原理的阐述。 一、HA安装 1、基本环境准备 1.1.1、centos7虚拟机安装,详情见 VMware安装Centos7虚拟机 1.1.2、关闭防火墙 systemctl stop firewalld.service systemctl disable firewalld.service 1.1.3、修改selinux vim /etc/selinux/config 将SELINUX=enforcing改为SELINUX=disabled [hadoop@lgh2 ~]$ cat /etc/selinux/config # This file controls the state of SELinux on the system. # SELINUX= can take one of these three values: # enforcing - SELinux security policy is enforced. # permissive - SELinux prints warnings instead of enforcing. # disabled - No SELinux policy is loaded. SELINUX=disabled # SELINUXTYPE= can

hadoop-安装

左心房为你撑大大i 提交于 2019-11-30 02:45:08
由于篇幅较大,废话不多说,直奔主题。 hadoop 安装同样可分为 单机模式、伪分布式、完全分布式 本文 主要 介绍完全分布式,环境 centos 6.5,hadoop-2.6.5 第一步:配置好 4 台虚拟机或者物理机,具体步骤参考我的其他博客 第二步:查看主机名,并修改           【务必记住修改主机名的方法,很多地方要用,不过不同版本方法不同】 [root@localhost ~]# hostname localhost.localdomain [root@localhost ~]# vi /etc/sysconfig/network [root@localhost ~]# hostname localhost.localdomain 修改为 NETWORKING=yes HOSTNAME=hadoop10 由于这种方法需要 重启才能生效 ,故 再查 hostname 没有变化,这里我不想重启,直接使用 临时更改命令 [root@localhost ~]# hostname hodoop10 [root@localhost ~]# hostname hodoop10 重启失效 依次修改 4 台电脑的 hostname 第三步:编辑 IP 与 hostname 的映射表 /etc/hosts 这个文件和 hostname 的修改没有任何关系,他需要放在集群中的每个节点

Hadoop(一)MapReduce demo

≡放荡痞女 提交于 2019-11-29 23:35:36
Mapreduce基础编程模型:将一个大任务拆分成一个个小任务,再进行汇总。 MapReduce是分两个阶段:map阶段:拆;reduce阶段:聚合。 hadoop环境安装 安装: 1、解压 : tar -zxvf hadoop-2.4.1.tar.gz -C /root/training/ 2、设置环境变量: vi ~/.bash_profile HADOOP_HOME=/root/training/hadoop-2.7.3 export HADOOP_HOME PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH export PATH 生效环境变量: source ~/.bash_profile 第一节:Hadoop的目录结构 第二节:Hadoop的本地模式 1、特点:不具备HDFS,只能测试MapReduce程序 2、修改hadoop-env.sh(echo $JAVA_HOME查出jdk安装路径:xx,将export JAVA_HOME=${JAVA_HOME}替换成export JAVA_HOME=xx) 修改第25行:export JAVA_HOME=/usr/java/jdk8u202-b08(行号可通过:esc后再set number来显示) 3、演示Demo: $HADOOP_HOME/share/hadoop

java.io.IOException:org.apache.hadoop.fs.ChecksumException: Checksum error 校验和(checksum)出现异常

[亡魂溺海] 提交于 2019-11-29 21:49:49
在查询hive中的数据时,报如下错误: 错误原因: 从提示用可以看出是:CheckSumException ,即 校验和异常, 出现该错误的 原因 :存储的数据与hadoop系统为该数据生成的校核和数据不一致导致错误,说白了,就是你存储的数据出现问题了,如:人为手动更改了数据,网络不稳定以及硬件损坏等因素导致的。本博客是我自己为了复现这个错误, 特地更改 了hive上的源数据。 如上图,我是通过notepad++更改了源数据,不是通过hive命令更改了数据,导致crc文件并没有做相应的更新,当我再次在hive使用select查询语句查询源数据的时候,就报了 校验和 异常。说明源数据遭到了损坏。此时,为了能查询到数据,直接将crc文件删除,再使用select查询语句即可查询到响应的数据。 为了详细了解hadoop的校验原理,参考下面的博客: 博客链接: https://blog.csdn.net/lb812913059/article/details/79718303 博客标题:Hadoop数据完整性与CheckSum校验原理 博客原文: 一、HDFS数据完整性 用户肯定都希望系统在存储和处理数据时,数据不会有任何丢失或损坏。但是,受网络不稳定、硬件损坏等因素,IO操作过程中难免会出现数据丢失或脏数据,难免会出现数据丢失或脏数据,数据传输的量越大,出现错误的概率就越高。