hdfs命令 | 易学教程

hadoop(一HDFS)

阅读更多关于 hadoop(一HDFS)

hadoop(一HDFS) 介绍狭义上来说: hadoop指的是以下的三大系统: HDFS ：分布式文件系统(高吞吐,没有延时要求,容错性,扩展能力) MapReduce : 分布式计算系统 Yarn：分布式样集群资源管理但是hadoop可不止这三个系统广义上来说: hadoop指的是大数据的一个生态圈架构模型 1.X版本的架构 NameNode:集群的主节点,主要是管理集群中的各种元数据() secondaryNameNode:主节点的辅助管理,主节点宕机后无法代替它(SecondaryNameNode 定期合并 fsimage 和 edits, 把 edits 控制在一个范围内 ) DataNode:从节点,主要用于存储集群中的各种数据 JobTracker:主节点,接收用户的计算请求,并分配给从节点 TaskTracker：负责执行主节点JobTracker分配的任务 2.x的版本架构模型数据计算核心模块： ResourceManager：接收用户的计算请求任务，并负责集群的资源分配 NodeManager：负责执行主节点APPmaster分配的任务高可用的实现文件管理系统多了JournalNode,目的是为了实现NameNode里面元数据的同步,当其中一个宕机,另外一个能完美代替它多了一个备份节点,让Zookeeper来管理实现高可用配置的作用 cd

Hadoop1重新格式化HDFS

阅读更多关于 Hadoop1重新格式化HDFS

首先我们来认识一下HDFS， HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件，为了降低文件丢失造成的错误，它会为每个小文件复制多个副本（默认为三个），以此来实现多机器上的多用户分享文件和存储空间。 Hadoop主要包含三个模块： HDFS模块：HDFS负责大数据的存储，通过将大文件分块后进行分布式存储方式，突破了服务器硬盘大小的限制，解决了单台机器无法存储大文件的问题，HDFS是个相对独立的模块，可以为YARN提供服务，也可以为HBase等其他模块提供服务。 YARN模块：YARN是一个通用的资源协同和任务调度框架，是为了解决Hadoop中MapReduce里NameNode负载太大和其他问题而创建的一个框架。YARN是个通用框架，不止可以运行MapReduce，还可以运行Spark、Storm等其他计算框架。 MapReduce模块：MapReduce是一个计算框架，它给出了一种数据处理的方式，即通过Map阶段、Reduce阶段来分布式地流式处理数据。它只适用于大数据的离线处理，对实时性要求很高的应用不适用。多相关信息可以参考博客：初识HDFS（10分钟了解HDFS、NameNode和DataNode）。

[转载]----Hadoop2.0命令手册

阅读更多关于 [转载]----Hadoop2.0命令手册

1. FS Shell 1.1 简介调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child，或者更简单的/parent/child（假设你配置文件中的默认值是namenode:namenodeport）。大多数FS Shell命令的行为和对应的Unix Shell命令类似，不同之处会在下面介绍各命令使用详情时指出。出错信息会输出到stderr，其他信息输出到stdout。 1.2 常用命令使用 1) cat 使用方法：hadoop fs -cat URI [URI …] 将路径指定文件的内容输出到stdout。示例： hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2 hadoop fs -cat file:///file3

Hadoop 2.0命令手册

阅读更多关于 Hadoop 2.0命令手册

Hadoop单机、伪分布式、分布式集群搭建

阅读更多关于 Hadoop单机、伪分布式、分布式集群搭建

JDK安装设置hostname [root@bigdata111 ~]# vi /etc/hostname 设置机器hosts [root@bigdata111 ~]# vi /etc/hosts 192.168.1.111 bigdata111 192.168.1.112 bigdata112 192.168.1.113 bigdata113 创建jdk目录 [root@bigdata111 /]# cd /opt [root@bigdata111 opt]# ll 总用量 0 drwxr-xr-x. 2 root root 6 3月 26 2015 rh [root@bigdata111 opt]# mkdir module [root@bigdata111 opt]# mkdir soft [root@bigdata111 opt]# ls module rh soft 上传jdk包打开winSCP工具，通过winscp工具上传java jdk到linux 的/opt/soft文件夹下 [root@bigdata111 opt]# cd soft [root@bigdata111 soft]# ls jdk-8u144-linux-x64.tar.gz 解压jdk 将jdk文件解压到module文件夹下,命令如下： [root@bigdata111 opt]# cd

Hadoop版本升级（2.7.6 => 3.1.2）

阅读更多关于 Hadoop版本升级（2.7.6 => 3.1.2）

　　　　自己的主机上的Hadoop版本是2.7.6，是测试用的伪分布式Hadoop，在前段时间部署了Hive on Spark，但由于没有做好功课，导致了Hive无法正常启动，原因在于Hive 3.x版本不适配Hadoop 2.x版本。之前我在学校服务器上部署的Hadoop版本是3.1.2，现打算将自己的从2.7.6升级到3.1.2版本，同时也当作练练手并记录以便以后参考。　　这是一个大版本跨度的升级操作，所以先参考Hadoop权威指南上的方案以及官方文档，然后拟定了升级和回滚方案。　　根据官方文档所说： ”For non-HA clusters, it is impossible to upgrade HDFS without downtime since it requires restarting the namenodes. However, datanodes can still be upgraded in a rolling manner.“ 也就是说对于非HA群集，由于需要重新启动名称节点，因此无法在没有停机的情况下升级HDFS。但是，仍可以回滚方式升级datanode。　　Hadoop升级最主要是HDFS的升级，HDFS的升级是否成功，才是升级的关键，如果升级出现数据丢失，则其他升级就变得毫无意义。　　解决方法：

删除hdfs上的内容报错：rm: Cannot delete /wxcm/ Name node is in safe mode.

阅读更多关于删除hdfs上的内容报错：rm: Cannot delete /wxcm/ Name node is in safe mode.

问题：删除hdfs上的内容报错： rm: Cannot delete /wxcm/ Name node is in safe mode. 原因：这是因为在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示，只需要等待一会儿即可。解决方法：（1）只需要等待一会儿即可；（2）可以通过以下命令来手动离开安全模式：hdfs dfsadmin -safemode leave 用户可以通过hdfs dfsadmin -safemode value 来操作安全模式，参数value的说明如下： hdfs dfsadmin -safemode enter - 进入安全模式 hdfs dfsadmin -safemode leave - 强制NameNode离开安全模式 hdfs dfsadmin -safemode get - 返回安全模式是否开启的信息 hdfs dfsadmin -safemode wait - 等待，一直到安全模式结束。但是这次即使执行了hdfs

Hadoop 系列（八）—— 基于 ZooKeeper 搭建 Hadoop 高可用集群

阅读更多关于 Hadoop 系列（八）—— 基于 ZooKeeper 搭建 Hadoop 高可用集群

一、高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用，两者的实现基本类似，但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多，所以它的实现也更加复杂，故下面先进行讲解： 1.1 高可用整体架构 HDFS 高可用架构如下：图片引用自：https://www.edureka.co/blog/how-to-set-up-hadoop-cluster-with-hdfs-high-availability/ HDFS 高可用架构主要由以下组件所构成： Active NameNode 和 Standby NameNode ：两台 NameNode 形成互备，一台处于 Active 状态，为主 NameNode，另外一台处于 Standby 状态，为备 NameNode，只有主 NameNode 才能对外提供读写服务。主备切换控制器 ZKFailoverController ：ZKFailoverController 作为独立的进程运行，对 NameNode 的主备切换进行总体控制。ZKFailoverController 能及时检测到 NameNode 的健康状况，在主 NameNode 故障时借助 Zookeeper 实现自动的主备选举和切换，当然

Kerberos实战

阅读更多关于 Kerberos实战

一、概要在Ambari页面启用Kerberos向导成功后，在Kerberos数据库中，就存放着许多Principal，在/etc/security/keytabs目录下也存放着很多keytab。这些principal与keytab是一一对应的，可以理解为锁与钥匙的关系。如果使用各服务的话，就需要进行Kerberos认证了。准确的说，是开启了kerberos认证的组件都必须先kinit后才可以使用，具体权限取决于组件本身的授权机制（ACL/Sentry等）二、访问Kerberos数据库查看principal 在kerberos KDC所在机器并且当前用户是root上操作访问Kerberos数据库： kadmin.local 查看Kerberos principal：第一种方式，在kadmin.local模式，直接输入 listprincs 第二种模式，是不进入kadmin.local模式，使用-q参数，直接获取principal kadmin.local -q listprincs 当前用户是非root用户或在其它机器上操作我们选择一台Kerberos从节点上访问Kerberos数据库，先使用kinit进行身份认证： kinit admin/admin 需要输入密码，密码是你之前创建admin/admin@EXAMPLE.COM这个principal时侯的密码

Hadoop运行在Kubernetes平台实践

阅读更多关于 Hadoop运行在Kubernetes平台实践

Hadoop与Kubernetes就好像江湖里的两大绝世高手，一个是成名已久的长者，至今仍然名声远扬，一个则是初出茅庐的青涩少年，骨骼惊奇，不走寻常路，一出手便惊诧了整个武林。Hadoop与Kubernetes之间有很深的渊源，因为都出自IT豪门——Google，只不过，后者是亲儿子，正因为有大佬背书，所以Kubernetes一出山，江湖各路门派便都蜂拥而至，拥护称王。不知道是因为Hadoop是干儿子的缘故还是因为“廉颇老矣”，总之，Hadoop朋友圈的后辈们如Spark、Storm等早都有了在Kubernetes上部署运行的各种资料和案例，但Hadoop却一直游离于Kubernetes体系之外，本文我们给出Hadoop在Kubernetes上的实践案例，以弥补这种缺憾。 Hadoop容器化的资料不少，但Hadoop部署在Kubernetes上的资料几乎没有，这主要是以下几个原因导致的：第一， Hadoop集群重度依赖DNS机制，一些组件还使用了反向域名解析，以确定集群中的节点身份，这对Hadoop在Kubernetes上的建模和运行带来极大挑战，需要深入了解Hadoop集群工作原理并且精通Kubernetes，才能很好解决这一难题。第二， Hadoop新的Map-Reduce计算框架Yarn的模型出现的比较晚，它的集群机制要比HDFS复杂，资料也相对较少

订阅 hdfs命令