hdfs命令

如何用鲲鹏弹性云服务器部署《Hadoop伪分布式》

匆匆过客 提交于 2019-11-28 06:03:24
1、安装环境和说明 CentOS 7.6 64 OpenJDK- 1.8 Hadoop- 3.0 2、安装 SSH 客户端 sudo yum install openssh-clients openssh-server 安装完成后,可以使用下面命令进行测试: ssh localhost 输入 root 账户的密码,如果可以正常登录,则说明SSH安装没有问题。测试正常后使用 exit 命令退出 3、安装 JAVA 环境 使用 yum 来安装1.7版本 OpenJDK: sudo yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel 安装完成后,输入 java 和 javac 命令,如果能输出对应的命令帮助,则表明jdk已正确安装。 鲲鹏已经自带了openjdk环境!这步可略~~ 4、安装 Hadoop 本教程使用 hadoop-3.0 版本,使用 wget 工具在线下载 wget https://archive.apache.org/dist/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz 安装 Hadoop 将 Hadoop 安装到 /usr/local 目录下: tar -zxf hadoop-3.2.1.tar.gz -C /usr/local 对安装的目录进行重命名

“化鲲为鹏,我有话说”如何用鲲鹏弹性云服务器部署《Hadoop伪分布式》

霸气de小男生 提交于 2019-11-28 05:56:44
1、安装环境和说明 CentOS 7.6 64 OpenJDK- 1.8 Hadoop- 3.0 2、安装 SSH 客户端 yum install openssh-clients openssh-server 安装完成后,可以使用下面命令进行测试: ssh localhost 输入 root 账户的密码,如果可以正常登录,则说明SSH安装没有问题。测试正常后使用 3、安装 JAVA 环境 使用 yum 来安装1.8版本 OpenJDK: yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel 安装完成后,输入 java 和 javac 命令,如果能输出对应的命令帮助,则表明jdk已正确安装。 忘这步了,!!!《《《配置 JAVA 环境变量》》》 执行命令: vi ~/.bashrc,在结尾追加: export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk 保存文件后执行下面命令使 JAVA_HOME 环境变量生效: source ~/.bashrc 为了检测系统中 JAVA 环境是否已经正确配置并生效,可以分别执行下面命令: java -version $JAVA_HOME/bin/java -version 若两条命令输出的结果一致,且都为我们前面安装的 openjdk-1.8.0

hadoop配置文件详解

牧云@^-^@ 提交于 2019-11-28 04:33:12
转载:仅仅是为了个人学习使用,记录问题,绝无他意。 网址:http://old.cuiyongjian.com/post-600.html 网上配置文件也是千奇百怪,各有异同,我们来对比总结学习下。 首先hadoop包放到一个程序目录下,例如我放到/usr/local下 完整路径为/usr/loca./hadoop-2.4.1 然后配环境变量,前提是jdk1.7已经安装好了。 环境变量配置: export JAVA_HOME=/usr/local/jdk1.7 export JRE_HOME=/usr/local/jdk1.7/jre export CLASSPATH=.:$JRE_HOME/lib:$JAVA_HOME/lib:$CLASSPATH PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH 检测: source /etc/profile然后 java -version 另外,把hadoop的环境变量提前配置好,也没什么关系。 export HADOOP_HOME=/usr/local/hadoop-2.4.1 export HADOOP_PREFIX=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_PREFIX export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP

Hadoop集群配置(最全面总结)

☆樱花仙子☆ 提交于 2019-11-28 04:32:30
Hadoop集群配置(最全面总结) huangguisu 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是 masters 。余下的机器即作为DataNode 也 作为TaskTracker。这些机器是 slaves\ 官方地址:( http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html ) 1 先决条件 确保在你集群中的每个节点上都安装了所有 必需 软件:sun-JDK ,ssh,Hadoop Java TM 1.5.x,必须安装,建议选择Sun公司发行的Java版本。 ssh 必须安装并且保证 sshd 一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。 2 实验环境搭建 2.1 准备工作 操作系统:Ubuntu 部署:Vmvare 在vmvare安装好一台Ubuntu虚拟机后,可以导出或者克隆出另外两台虚拟机。 说明: 保证虚拟机的ip和主机的ip在同一个ip段,这样几个虚拟机和主机之间可以相互通信。 为了保证虚拟机的ip和主机的ip在同一个ip段,虚拟机连接设置为桥连。 准备机器:一台master,若干台slave,配置每台机器的/etc/hosts保证各台机器之间通过机器名可以互访,例如: 10.64.56.76 node1

Hadoop集群配置 最全面总结

99封情书 提交于 2019-11-28 04:31:10
分享一下我老师大神的人工智能教程!零基础,通俗易懂! http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴! Hadoop集群配置(最全面总结) huangguisu 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是 masters 。余下的机器即作为DataNode 也 作为TaskTracker。这些机器是 slaves\ 官方地址:( http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html ) 1 先决条件 确保在你集群中的每个节点上都安装了所有 必需 软件:sun-JDK ,ssh,Hadoop Java TM 1.5.x,必须安装,建议选择Sun公司发行的Java版本。 ssh 必须安装并且保证 sshd 一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。 2 实验环境搭建 2.1 准备工作 操作系统:Ubuntu 部署:Vmvare 在vmvare安装好一台Ubuntu虚拟机后,可以导出或者克隆出另外两台虚拟机。 说明: 保证虚拟机的ip和主机的ip在同一个ip段,这样几个虚拟机和主机之间可以相互通信。

Hdfs详解

你。 提交于 2019-11-28 01:22:31
一.Hdfs简介    hdfs是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件,并且是分布式的,由很多服务器联合起来实现其功能,集群中的服务器各自负责角色;   重要特征:   1.HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M   2.HDFS文件系统会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data   3.目录结构及文件分块信息(元数据)的管理由namenode节点承担——namenode是HDFS集群主节点,负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的block块信息(block的id,及所在的datanode服务器) 4.文件的各个block的存储管理由datanode节点承担---- datanode是HDFS集群从节点,每一个block都可以在多个datanode上存储多个副本(副本数量也可以通过参数设置dfs.replication) 5.HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改 二.Hdfs的shell(命令行客户端)操作  

Hadoop(四)HDFS集群详解

五迷三道 提交于 2019-11-28 01:22:10
前言   前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。   HDFS前言:     设计思想:(分而治之) 将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。     在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 。   分布式文件系统:     问题引发:海量数据超过了单台物理计算机的存储能力     解决方案:对数据分区存储与若干台物理主机中     分布式文件系统应运而生:             1)管理网络中跨多台计算机存储的文件系统             2)HDFS就是这样的一个分布式文件系统 一、HDFS概述 1.1、HDFS概述   1)HDFS集群分为两大角色: NameNode、DataNode   2)NameNode负责 管理整个文件系统的元数据   3)DataNode负责 管理用户的文件数据块   4)文件会 按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上   5)每一个 文件块可以有多个副本,并存放在不同的datanode 上   6)DataNode会定期向NameNode汇报 自身保存的block信息

HDFS详解

我与影子孤独终老i 提交于 2019-11-28 01:21:55
HDFS基本概念 1、HDFS设计思想 分而治之 :将大文件、大批量文件,分布式存放在大量服务器上, 以便于采取 分而治之 的方式对海量数据进行运算分析 2、概念和特性 概念:HDFS是一个 分布式 的 文件系统 。 特性: (1)HDFS 中的 文件在 物理上是 分块存储( block ) ,块的大小可以通过配置参数 ( dfs.blocksize ) 来规定,默认大小在 hadoop2.x 版本中是 128M ,老版本中是 64M (2)HDFS 文件系统会 给客户端提供一个 统一的抽象目录树 ,客户端通过路径来访问文件 ,形如: hdfs://namenode:port/dir-a/dir-b/dir-c/file.data (3) 目录结构及文件分块信息 ( 元数据 ) 的管理由 namenode 节点承担 —— namenode 是 HDFS 集群主节点,负责维护整个 hdfs 文件系统的目录树,以及每一个路径(文件)所对应的 block 块信息( block 的 id ,及所在的 datanode 服务器) (4) 文件的各个 block 的存储管理由 datanode 节点承担 ---- datanode 是 HDFS 集群从节点,每一个 block 都可以在多个 datanode 上存储多个副本(副本数量也可以通过参数设置 dfs.replication ) (5

HDFS详解

ε祈祈猫儿з 提交于 2019-11-28 01:21:19
【一】HDFS简介 HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。 ------------------------------------------------------------------------------------------- 内容比较多,所以本区整理如下,欢迎下载学习: 附件 : HDFS简介.pdf (2010-12-1 22:58:56, 516.37 K) 该附件被下载次数 5 ------------------------------------------------------------------------------------------- ------------------------------------------------------------------------------------------- 【二】HDFS和KFS 比较 两者都是GFS的开源实现,而HDFS 是Hadoop 的子项目,用Java实现

ranger 编译安装

淺唱寂寞╮ 提交于 2019-11-28 01:03:05
ranger大数据领域的一个集中式安全管理框架,它可以对诸如hdfs、hive、kafka、storm等组件进行细粒度的权限控制。本文将介绍部署过程 1. 部署准备 ranger: 进入apach官网下载 http://ranger.apache.org/download.html , 本次使用的是ranger1.2.0 ,地址为 http://mirror.bit.edu.cn/apache/ranger/1.2.0/apache-ranger-1.2.0.tar.gz maven: 进入Apache的maven官网 http://maven.apache.org/download.cgi 下载, 本次用的是maven3.6 ,下载地址 http://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.1/binaries/apache-maven-3.6.1-bin.tar.gz python2.7: 因编译及试用中需要Python2.7版本的Python,因此如果为Centos6系统,需要手动升级Python至Python2.7,升级过程可参考历史文章 Python升级 MySQL: 需要mysql数据库,如无可用MySQL需要部署一套MySQL,部署方法请参考历史文章 MySQL部署 mysql-connector