HDFS

kdc单机kerberos认证的hdfs开发环境

喜欢而已 提交于 2020-01-24 04:36:42
开发中需要测试kerberos认证的hdfs环境,方便模拟线上环境,hdfs单机很简单,但是加上kerberos,一方面时配置复杂,另一方面时java程序连接认证容易出错,所以总结了快速搭建kerberos认证的hdfs环境,方便开发与测试 centos 6.10 minimal安装 先安装kerberos yum - y install krb5 - libs krb5 - server krb5 - workstation echo '192.168.127.131 myli' >> / etc / hosts # hostname,主机名使用ip,不用 127 echo '192.168.127.131 kerberos.example.com' >> / etc / hosts kdb5_util create - r EXAMPLE . COM - s # 另一个终端 cat / dev / sda > / dev / urandom,往随机池写入,加快速度,新建密码 kadmin . local - q "addprinc admin/admin" # 管理员,新建密码 / etc / init . d / krb5kdc start / etc / init . d / kadmin start kadmin . local - q 'addprinc

hadoop学习

故事扮演 提交于 2020-01-23 18:18:02
很多同学是通过学习hadoop来学习大数据的,学习资料可能是以图书为主要参考方向,《hadoop权威指南》的确是一本很好的入门大数据图书,但大数据系统本身是分布式系统,所以我以为分布式系统的相关概念才是掌握大数据各类框架、知识的基础。 1 入门: hadoop框架是集存储(hdfs)、计算(mr计算模型)、资源管理(yarn)等于一体的综合框架,当然它是一个历史的阶段产物,刨除此因我们来看看大家所熟知的wordcount的具体做法(mr)是什么场景下如何进行计算的? 1-1 分布式系统 首先wordcount程序放到传统单机模式下也可以处理,这里大家一定会想到多线程、文件切割等实现方式,简单来说并行计算的想法由来已久,随着硬件的不断进步、性能不断提升,多核计算也已发展多年了,与此同时这个世界产生的数据更是增长飞速,那么原来单机下多任务多线程的计算方式与其后的多核并行都遇到了一个处理速度与处理数据间严重不匹配的问题,如何提高计算能力是发展的必然,那么集群方式解决了计算资源水平扩展的能力并同时具有并行性,这是目前的核心思想,我们可以理解目前的集群(一个黑盒子)类比于传统单机方式,集群中的节点间并行计算涉及到了主从架构、集群管理、消息通讯、容错处理等等方面,然后这些都是分布式系统所要考虑和解决的问题,因为它本身就是分布式系统。 1-2 分布式存储 刚才简单提到了分布式系统,说到了计算方面

DataNode 详解及HDFS 2.X新特性

家住魔仙堡 提交于 2020-01-23 13:32:40
1. 工作机制 一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 DataNode 启动后向 NameNode 注册,通过后,周期性(1小时)的向 NameNode 上报所有的块信息。 心跳是每3秒一次,心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器,或删除某个数据块。如果超过 10 分钟没有收到某个 DataNode 的心跳,则认为该节点不可用。 ============================== 2. 数据完整性 当 DataNode 读取 Block 的时候,它会计算 CheckSum。 如果计算后的 CheckSum, 与 Block 创建时值不一样, 说明 Block 已经损坏。 Client 读取其他 DataNode 上的 Block。 DataNode 在其他文件创建后周期验证 CheckSum; 奇偶校验示例(实际使用的是CRC校验): ============================== 3. 掉线时限参数设置 DataNode 进程死亡或者网络故障造成 DataNode 无法与 NameNode 通信; NameNode 不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作 超时时长 ; HDFS

URI to access a file in HDFS

佐手、 提交于 2020-01-23 08:24:45
问题 I have setup a cluster using Ambari that includes 3 nodes . Now I want to access a file in a HDFS using my client application. I can find all node URIs under Data Nodes in Amabari. What is the URI + Port I need to use to access a file ? I have used the default installation process. 回答1: Default port is "8020". You can access the "hdfs" paths in 3 different ways. Simply use "/" as the root path For e.g. E:\HadoopTests\target>hadoop fs -ls / Found 6 items drwxrwxrwt - hadoop hdfs 0 2015-08-17

Where is the configuration file for HDFS in Hadoop 2.2.0?

|▌冷眼眸甩不掉的悲伤 提交于 2020-01-23 04:32:07
问题 I'm studying Hadoop and currently I'm trying to set up an Hadoop 2.2.0 single node. I downloaded the latest distribution, uncompressed it, now I'm trying to set up the Hadoop Distributed File System (HDFS). Now, I'm trying to follow the Hadoop instructions available here but I'm quite lost. In the left bar you see there are references to the following files: core-default.xml hdfs-default.xml mapred-default.xml yarn-default.xml But how those files are ? I found /etc/hadoop/hdfs-site.xml, but

2、Hive安装详细教程

只谈情不闲聊 提交于 2020-01-22 23:12:18
VX:数据科学讲堂 领取教程 1.准备hive安装包 自行按照1.1教程提示下载hive的安装包 1.1 下载hive 下载地址 打开下载地址后,如下图点击apache-hive-1.2.2-bin.tar.gz 下载 1.2 上传hvie安装包 基于我们之前的环境安装情况已经可以了解到我们已经在node1上部署了namenode,resourcemanager,secondarynamenode等比较重要的进程;node3上呢我们已经安装了centos的桌面和idea,这两个主要的进程消耗的系统资源比较多,那么接下来我们要安装的hive计划安装在node2节点上,所以我们将hive的安装包通过xhsell中的xftp的工具上传到node2上. 如下图 如下图, 安装包上传成功,如下图 1.3 解压hive安装包 #1.把hive的压缩安装包解压到/opt/bigdata/目录下 [root@node2 ~]# tar -xzvf apache-hive-1.2.2-bin.tar.gz -C /opt/bigdata/ #输入完命令后回车 #2.切换到bigdata目录下 [root@node2 ~]# cd /opt/bigdata/ #3.修改hive安装目录的所属用户和组为hadoop:hadoop [root@node2 bigdata]# chown -R hadoop

Hadoop - 实时查询Drill

≡放荡痞女 提交于 2020-01-22 16:10:17
1.概述   在现实业务当中,存在这样的业务场景,需要实时去查询HDFS上的相关存储数据,普通的查询(如:Hive查询),时延较高。那么,是否存在时延较小的查询组件。在业界目前较为成熟的有Cloudera的Impala,Apache的Drill,Hortonworks的Stinger。本篇博客主要为大家介绍Drill,其他两种方式大家可以自行下去补充。 2.Drill Architecture 2.1 Cilent   使用Drill,可以通过以下方式进入到Drill当中,内容如下所示: Drill shell:使用客户端命令去操作 Drill Web Console:Web UI界面去操作相关内容 ODBC/JDBC:使用驱动接口操作 C++ API:C++的API接口 2.2 Drill Query Execution   执行流程如下图所示: 2.3 Core Modules   核心模块图,如下所示:   至于详细的文字描述,这里就不多做赘述了。大家看图若是有疑惑的地方,可以去官方网站,查看详细的文档描述。[ 官方文档 ] 3.Drill使用   介绍完Drill的架构流程,下面我们可以去使用Drill去做相关查询操作。安装Drill的过程比较简单,这里就不多做详细的赘述了。首先,去Apache的官网下载Drill的安装包,这里笔者所使用的本版是drill-1.2.0

hadoop namenode的工作机制

青春壹個敷衍的年華 提交于 2020-01-22 12:03:12
hadoop 集群中有两种节点,一种是namenode,还有一种是datanode。 其中datanode主要负责数据的存储,namenode主要负责三个功能,分别是(1)管理元数据 (2)维护目录树 (3)响应客户请求 首先介绍下,元数据格式 hdfs在外界看来就是普通的文件系统,可以通过路径进行数据的访问等操作,但在实际过程存储中,却是分布在各个节点上。如上图所示,是一条元数据,/test/a.log 是在hdfs文件系统中的路径,3是这个文件的副本数(副本数可以通过在配置文件中的配置来修改的)。在hdfs中,文件是进行分块存储的,如果文件过大,就要分成多块存储,每个块在文件系统中存储3个副本,以上图为例,就是分成blk_1和blk_2两个块,每个块在实际的节点中有3个副本,比如blk_1的3个副本分别存储在h0,h1,h3中。 现在由此引出一个问题,namenode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在namenode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断点,元数据丢失,整个集群就无法工作了!!!因此必须在磁盘中有备份,在磁盘中的备份就是fsImage,存放在namenode节点对应的磁盘中。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新fsImage

Flume,Sqoop学习以及应用

依然范特西╮ 提交于 2020-01-22 10:17:51
目录 1.Flume是什么? 2.Flume如何搭建 3.Flume应用 4.Sqoop是什么? 5.使用Sqoop将HBase数据计算并导入MySql 学习文档参考: http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 1.Flume是什么? Flume简单概括就是一个收集日志的工具,它可以通过调用接口,RPC,还有网页的一些操作进行日志的收集。它是一个分布式开源的Java编写的由Apache维护的项目。 2.Flume如何搭建 搭建前提条件 2.1下载并解压到指定目录 崇尚授人以渔的思想,我说给大家怎么下载就行了,就不直接放连接了,大家可以直接输入官网地址 http://flume.apache.org ,一般在官网的上方或者左边都会有Download按钮,这个在左侧,然后点进去下载想要的版本即可。 这个会有点慢,如果嫌弃的化,可以通过相关镜像网站进行下载,可以百度搜索软件镜像,就能搜到很多镜像网站,在里面就可以下载,如果你下载的东西属于Apache旗下的,可以看的有专门的一个Apache目录,里面存的都是Apache旗下相关产品。 可以先本地下载,然后通过ftp上传,也可以直接在服务器下载。 我这里下载好后,解压到了服务器/opt 目录下面,并修改了下目录名称为flume(你也可以不改

如何搭建hdfs集群和yarn集群

有些话、适合烂在心里 提交于 2020-01-22 08:46:03
1,jdk安装,配置环境变量 vi /etc/profile 2,ssh免密钥(本机) ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 3,上传hadoop.tar.gz到服务器 解压tar zxvf,mv hadoop-2.6.5 /opt/sxt vi /etc/profile 4,/opt/hadoop-2.6.5/etc/hadoop *hadoop-env.sh JAVA_HOME=/usr/java/jdk1.8.0_141 REFIX/sbin (搭建hdfs集群) fxb1 slaves fxb1 fxb2 fxb3 这个配置文件是datanode所在的节点 分发部署包到其他节点 cd /opt/sxt scp -r hadoop-2.6.5 node02:/opt/sxt/ scp -r hadoop-2.6.5 node03:/opt/sxt/ hdfs namenode -format 初始化namenode start-dfs.sh 开启hdfs集群 (搭建yarn集群) yarn集群中有两个角色: 主节点:Resource Manager 1台 从节点:Node Manager N台 Resource