hdfs命令

HDFS的搭建

我的未来我决定 提交于 2020-02-24 20:09:57
所有的节点都必须做的:(NameNode,DataNode) 1 需要知道hadoop依赖Java和SSH Java 1.5.x (以上),必须安装。安装目录为 /usr/java/jdk1.7.0 1 下载合适的jdk //此文件为64Linux 系统使用的 RPM包 http://download.oracle.com/otn-pub/java/jdk/7/jdk-7-linux-x64.rpm 2 安装jdk rpm -ivh jdk-7-linux-x64.rpm 3 验证java [root@hadoop1 ~]# java -version java version "1.7.0" Java(TM) SE Runtime Environment (build 1.7.0-b147) Java HotSpot(TM) 64-Bit Server VM (build 21.0-b17, mixed mode) [root@hadoop1 ~]# ls /usr/java/ default jdk1.7.0 latest 4 配置java环境变量 #vim /etc/profile //在profile文件中加入如下信息: #add for hadoop export JAVA_HOME =/usr/java/jdk1.7.0 export CLASSPATH =.:

十 DataNode

随声附和 提交于 2020-02-22 15:26:30
文章目录 1 DataNode工作机制 2 数据完整性 3 掉线时限参数设置 4 服役新数据节点 5 退役旧数据节点 5.1 添加白名单 5.2 黑名单退役 6 Datanode多目录配置 7 HDFS 2.X新特性 7.1 集群间数据拷贝 1 DataNode工作机制 1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。 4)集群运行中可以安全加入和退出一些机器。 2 数据完整性 思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理DataNode节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢? 如下是DataNode节点保证数据完整性的方法。 1)当DataNode读取Block的时候,它会计算CheckSum。 2)如果计算后的CheckSum,与Block创建时值不一样

hadoop HDFS常用文件操作命令

对着背影说爱祢 提交于 2020-02-21 05:28:18
hadoop HDFS常用文件操作命令 Hadoop FS常用命令 初级 https://blog.csdn.net/olizxq/article/details/81007929 hadoop fs 命令使用 https://blog.csdn.net/mulangren1988/article/details/54860924?utm_source=distribute.pc_relevant.none-task 命令基本格式: 1 hadoop fs - cmd < args > 1. ls  列出hdfs文件系统根目录下的目录和文件 1 hadoop fs - ls / dir 1 hadoop fs - ls - R / dir - - 列出hdfs文件系统所有的目录和文件  2.put hadoop fs -put <local file> <hdfs file> --hdfs file的父目录一定要存在,否则命令不会执行 hadoop fs -put <local file or dir> <hdfs dir> --hdfs dir 一定要存在,否则命令不会执行 hadoop fs -put - <hdfs file> --从键盘读取输入到hdfs file中,按Ctrl+D结束输入,hdfs file不能存在,否则命令不会执行 3.get hadoop fs

hadoop伪分布式安装

两盒软妹~` 提交于 2020-02-18 08:20:54
hadoop伪分布式安装笔记 参考 https://www.cnblogs.com/zhangyinhua/p/7647686.html https://blog.csdn.net/javastart/article/details/47187733 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mode)   -默认情况下,Hadoop即处于该模式,用于开发和调式。   -不对配置文件进行修改。   -使用本地文件系统,而不是分布式文件系统。   -Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。   -用于对MapReduce程序的逻辑进行调试,确保程序的正确。 1.2、伪分布式模式(Pseudo-Distrubuted Mode)   -Hadoop的守护进程运行在本机机器,模拟一个小规模的集群    -在一台主机模拟多主机。   -Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。   -在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由JobTraker服务

Spark 读取文件系统的数据

本秂侑毒 提交于 2020-02-16 21:58:18
目录: 一、 在 spark-shell 中读取 Linux 系统本地文件 二、 在 spark-shell 中读取 HDFS 系统文件 三、 编写独立应用程序,读取 HDFS 系统文件 (此处有sbt安装教程——> Spark之Scala独立应用编程 ) 环境: Hadoop 2.6.0以上 java JDK 1.7以上 Spark 3.0.0-preview2 sbt 0.13.9 一、在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test1.txt”,然后统计出文件的行数: 1、 首先启动spark-shell进入Spark-shell模式:(进入spark目录下后 输入命令 bin/spark-shell 启动spark-shell模式 ) 2、 加载text文件 (spark创建sc,可以加载本地文件和HDFS文件创建RDD) val textFile = sc.textFile("file:///home/hadoop/test1.txt") #注意file:后是三个“/” 注意:加载HDFS文件和本地文件都是使用textFile,区别是添加前缀(hdfs://和file://)进行标识。 3、 获取RDD文件textFile所有项 (文本文件即总共行数) 的计数 (还有很多其他的RDD操作,自行百度) textFile

Hadoop 2.6.0 集群部署

天涯浪子 提交于 2020-02-15 10:43:36
  Hadoop的集群部署和单节点部署类似,配置文件不同,另外需要修改网络方面的配置   首先,准备3台虚拟机,系统为CentOS 6.6,其中一台为namenode 剩余两台为 datanode;   修改主机名主节点为:hadoopha,数据节点主机名分别为hadoop1、hadoop2,具体修改方法 点击这里 查看   本例中这3台虚拟机处于同一个局域网,网络连接设置为桥接,ip地址分别为是hadoopha为:192.168.1.42,hadoop1为:192.168.1.78、hadoop2为:192.168.1.44,实际中可以设置静态ip为连续的   然后修改hosts网络指向,用vim /etc/hosts打开文件,后面添加3行记录:    192.168.1.42 hadoopha   192.168.1.78 hadoop1   192.168.1.44 hadoop2   然后保存退出      上面那些localhost指向不用改,新添加3行即可,这三台主机都要修改hosts文件保持一致   以上是主机之间网络通信的基础,接下来在hadoopha上单独配置hadoop环境,hadoop1和hadoop2不用安装hadoop,只有jdk即可   同样把hadoop解压到指定目录,配置一下HADOOP_HOME到环境变量中,然后进入hadoop安装目录,修改配置

学习进度13

混江龙づ霸主 提交于 2020-02-13 23:41:55
实验3-Spark和Hadoop的安装-题目-厦门大学-林子雨-Spark编程基础(Scala版) HDFS常用操作 (1) 启动Hadoop,在HDFS中用户目录”/user/hadoop” (2) 在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件 test.txt,并在该文件中随便输入一些内容,然后上传到 HDFS 的“/user/hadoop” 目录下 (3) 把 HDFS 中“/user/hadoop”目录下的 test.txt 文件,下载到 Linux 系统的本地文 件系统中的“/home/hadoop/下载”目录下 (4) 将HDFS中“/user/hadoop”目录下的test.txt文件的内容输出到终端中进行显示 (5) 在 HDFS 中的“/user/hadoop”目录下,创建子目录 input,把 HDFS “/user/hadoop”目录下的 test.txt 文件,复制到“/user/hadoop/input”目录 (6) 删除HDFS中“/user/hadoop”目录下的test.txt文件,删除HDFS中“/user/hadoop” 目录下的 input 子目录及其子目录下的所有内容 Spark 读取文件系统的数据 (1) 在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop

Hadoop1.x与Hadoop2的区别

爷,独闯天下 提交于 2020-02-13 23:29:10
转自: http://blog.csdn.net/fenglibing/article/details/32916445 六、 Hadoop1.x 与 Hadoop2 的区别 1 、变更介绍 Hadoop2 相比较于 Hadoop1.x 来说, HDFS 的架构与 MapReduce 的都有较大的变化,且速度上和可用性上都有了很大的提高, Hadoop2 中有两个重要的变更: l HDFS 的 NameNodes 可以以集群的方式布署,增强了 NameNodes 的水平扩展能力和可用性; l MapReduce 将 JobTracker 中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为 YARN ( Yet Another Resource N e g o t i a t o r )。 1.1 、 HDFS 的变化 - 增强了 NameNode 的水平扩展及可用性 1.1.1 、 Hadoop 的 1.X 架构的介绍 而在 1.x 中的 NameNodes 只可能有一个,虽然可以通过 SecondaryNameNode 与 NameNode 进行数据同步备份,但是总会存在一定的时延,如果 NameNode 挂掉,但是如果有部份数据还没有同步到 SecondaryNameNode 上,还是可能会存在着数据丢失的问题。 架构如下: 包含两层:

Hadoop HDFS

不羁的心 提交于 2020-02-13 17:20:13
一:HDFS架构图 HDFS:分布式文件系统 Hadoop Distributed File System Block数据块 基本存储单位,一般大小为64M,配置大的块主要是因为: 减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间; 减少管理块的数据开销,每个块都需要在NameNode上有对应的记录; 对数据块进行读写,减少建立网络的连接成本 一个大文件会被拆分成一个个的块,然后存储于不同的机器。如果一个文件少于Block大小,那么实际占用的空间为其文件的大小 基本的读写单位,类似于磁盘的页,每次都是读写一个块 每个块都会被复制到多台机器,默认复制3份 NameNode 存储文件的metadata,运行时所有数据都保存到内存,整个HDFS可存储的文件数受限于NameNode的内存大小 一个Block在NameNode中对应一条记录(一般一个block占用150字节),如果是大量的小文件,会消耗大量内存。同时map task的数量是由splits来决定的,所以用MapReduce处理大量的小文件时,就会产生过多的map task,线程管理开销将会增加作业时间。处理大量小文件的速度远远小于处理同等大小的大文件的速度。因此Hadoop建议存储大文件 数据会定时保存到本地磁盘,但不保存block的位置信息,而是由DataNode注册时上报和运行时维护

大数据之虚拟机配置和环境准备及hadoop集群搭建

心不动则不痛 提交于 2020-02-10 14:45:09
一、VMnet1和VMnet8路由器 VMware-workstation软件选择默认安装时,会自动创建VMnet1和VMnet8路由器设备。(安装失败使用CCleaner清理vm软件)   VMnet1对应仅主机模式。如果在网络适配器-网络连接里面选择仅主机模式,那么Linux的虚拟网卡就会接入VMnet1路由设备,应该使用VMnet1设备子网IP段,一般情况下使用DHCP获取的IP地址就在子网IP段范围。   VMnet8对应NAT模式。如果在网络适配器-网络连接里面选择NAT模式,那么Linux的虚拟网卡就会接入VMnet8路由设备,应该使用VMnet8设备子网IP段,一般情况下使用DHCP获取的IP地址就在子网IP段范围。 比如网络适配器-网络连接里面选择NAT模式,那么自动获取的IP地址范围就在192.168.201.128~254,如下: 二、各种模式网络配置详解 (1)桥接模式   桥接模式就是将主机网卡与虚拟机虚拟的网卡利用虚拟网桥进行通信。在桥接的作用下,类似于把物理主机虚拟为一个交换机,所有桥接设置的虚拟机连接到这个交换机的一个接口上,物理主机也同样插在这个交换机当中,所以所有桥接下的网卡与网卡都是交换模式的,相互可以访问而不干扰。在桥接模式下,vm中的虚拟机与主机是一样的,都连在了和主机一样的路由中(相当于多台主机连接了同一个路由器上);其网络结构如图: