Hadoop

presto集成kerberos以及访问集成了kerberos的hive集群

坚强是说给别人听的谎言 提交于 2021-01-12 04:36:19
1、 创建主体 注: 192.168.0.230 为单节点集群 192.168.4.50 为 kdc 服务器 192.168.0.9 为客户端 1.1、 Kdc 服务器创建主体 # kadmin.local -q ‘addprinc -randkey presto’ #kadmin.local -q ‘addprinc -randkey presto/yjt’ 1.2、 创建秘钥文件 # kadmin.local -q ‘xst -norandkey -k presto.keytab presto presto/yjt hive/yjt nn/yjt’ 上述的 hive/yjt 和 nn/yjt 两个认证用户也需要添加到秘钥表, hive/yjt 用于 presto 连接 hive 集群时使用, nn/yjt 用户操作 hdfs 时使用 1.3、 分发秘钥文件 # scp presto.keytab 192.168.0.230:/data1/hadoop/presto 如下操作在集群 # chmod 444 /data1/hadoop/presto/presto.keytab 1.4、 生成 keystore 文件 在 presto 主节点生成 keystore # keytool -genkeypair -alias localhost -keyalg RSA -keystore

Hadoop开发 Hadoop视频教程 段海涛老师Hadoop完全攻克Hadoop视频教程 Hadoop开发

假如想象 提交于 2021-01-12 03:19:51
最新在学习hadoop 、storm大数据相关技术,发现网上hadoop 、storm 相关学习视频少之又少,更可恶的是不少机构使用段海涛老师Hadoop视频进行商业买卖,气愤至急,我这里整理了传智播客段海涛老师的hadoop学习视频,分享出来给大家学习交流。 ps:传智播客是个不错的学习地方,段海涛老师视频中的表达也很有趣,中间还有内涵段子哈哈,希望大家多支持传智播客;此次分享只是供喜欢技术钻研新技术的同学学习交流,全新hadoop培训大纲,比之前七天的培训更加完善,非常适合想从事Hadoop开发学习的朋友们,另外整理java架构师的一些资料 视频下载地址: http://demo.liuy88.cn/jp0471.html 第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和伪分布式安装.avi 06-hadoop版本选择和伪分布式安装2.avi 07-hdfs&mapreduce测试.avi 08-hdfs的实现机制初始.avi 09-hdfs的shell操作.avi 10-hadoop集群搭建的无密登陆配置.avi 第二天

How to fix corrupt HDFS FIles

我是研究僧i 提交于 2021-01-11 09:57:18
1 问题描述 HDFS在机器断电或意外崩溃的情况下,有可能出现正在写的数据(例如保存在DataNode内存的数据等)丢失的问题。再次重启HDFS后,发现hdfs无法启动,查看日志后发现,一直处于安全模式。 2 原因分析 出现前面提到的问题主要原因是客户端写入的数据没有及时保存到磁盘中,从而导致数据丢失;又因为数据块丢失达到一定的比率,导致hdfs启动进入安全模式。 为了弄清楚导致安全模式的原因,下面主要对hdfs安全模式和如何退出安全模式进行分析。 2.1 安全模式 当 hdfs的NameNode节点启动时,会进入安全模式阶段。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。 在此阶段,NameNode加载fsimage(Filesystem image:文件meta信息的持久化的检查点)文件到内存中,然后在editlog中执行相应的操作。加载fsimage文件包含文件metadata信息,但是不包含文件块位置的信息。 DataNode启动的时候扫描本地磁盘,保存的block信息,然后将这些信息汇报给NameNode,让 NameNode得到块的位置信息,并对每个文件对应的数据块副本进行统计。 如果hdfs数据量很大时,进入至退出安全模式时间较长。 2.2 安全模式退出条件 当最小副本条件满足时,即一定比例(dfs

0561-04-如何将CDH集成的KDC迁移至FreeIPA的Kerberos认证

谁说我不能喝 提交于 2021-01-11 03:04:25
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1 文档编写目的 前面Fayson介绍了《 0558-01-如何在Redhat7上安装FreeIPA 》和《 0559-02-如何在Redhat7上安装FreeIPA的客户端 》,那如何在CDH集群中使用?通过Cloudera Manager可以为我们的CHD集群启用Kerberos认证,在前面的文章《 如何为CDH集成Active Directory的Kerberos认证 》和《 如何在CDH集群启用Kerberos 》介绍了集成不同服务的Kerberos认证,本篇文章Fayson主要介绍如何将CDH集成的KDC服务切换至FreeIPA下的Kerberos认证。 测试环境 1. RedHat7.3 2. FreeIPA4.6.4 3.CM和CDH版本为5.15.0 2 环境准备 1.确认CDH机器所有节点已安装了FreeIPA Client,可以参考Fayson上一篇文章《 02-如何在Redhat7上安装FreeIPA的客户端 》 2. 安装完成 FreeIPA 客户端后,修改集群所有节点 krb.conf 文件 3. 在 FreeIPA 上创建一个

【大数据】Kafka学习笔记

风流意气都作罢 提交于 2021-01-10 13:17:43
第1章 Kafka 概述 1.1 消息队列 ( 1 )点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理,即使有多个消息监听者也是如此。 ( 2 )发布 / 订阅模式(一对多,数据生产后,推送给所有订阅者) 发布订阅模型则是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者,临时订阅者只在主动监听主题时才接收消息,而持久订阅者则监听主题的所有消息,即使当前订阅者不可用,处于离线状态。 1.2 为什么需要 消息队列 1) 解耦:   允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 2) 冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的 " 插入 - 获取 - 删除 " 范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。 3) 扩展性: 因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可。 4) 灵活性 & 峰值处理能力: 在访问量剧增的情况下,应用仍然需要继续发挥作用

2021年最新版大数据面试题全面总结-持续更新

南楼画角 提交于 2021-01-10 13:09:43
更新内容和时间表 大数据基础篇 Part0:Java基础篇 Part1:Java高级篇 Part2:Java之JVM篇 Part3:NIO和Netty篇 Part4:分布式理论篇 框架篇 Part5:Hadoop之MapReduce Part6:Hadoop之HDFS Part7:Hadoop之Yarn Part8:Hadoop之Zookeeper Part9:Hadoop之Hive Part10:Hadoop之Hbase Part11:Hadoop之Kafka Part12:Hadoop之其他消息队列 Part13:Hadoop之Spark Part14:Hadoop之Flink 算法篇 大数据算法面试题 目前已经有面试系列 总纲 大数据方向学习面试知识图谱 Flink Flink面试题通关手册 全网第一 | Flink学习面试灵魂40问答案 Spark 独孤九剑-Spark面试80连击(上) 独孤九剑-Spark面试80连击(下) 企业面试题 如果你在准备面试,好好看看这130道题 面试题总结PDF版 可以关注公众号,回复【JAVAPDF】,领取这份面试题PDF版本! 欢迎关注, 《大数据成神之路》 系列文章 欢迎关注, 《大数据成神之路》 系列文章 欢迎关注, 《大数据成神之路》 系列文章 来源: oschina 链接: https://my.oschina.net

Cloudera Manager的安装

一世执手 提交于 2021-01-10 10:33:25
1. cloudera manager的概念 简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 功能: 1) 管理:对集群进行管理,如添加、删除节点等操作。 2) 监控:监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控。 3) 诊断:对集群出现的问题进行诊断,对出现的问题给出建议解决方案。 4) 集成:多组件进行整合。 架构: 1) Server:负责软件安装、配置,启动和停止服务,管理服务运行的群集。 核心 2) Agent:安装在每台主机上。负责 启动和停止进程, 配置,监控主机。 3) Management Service:由一组执行各种监控,警报和报告功能角色的服务。 图表的生成和管理 4) Database:存储配置和监视信息。 5) Cloudera Repository:软件由Cloudera 管理分布存储库。(有点 类似Maven的中心仓库 ) ;在线安装(从中心仓库拉取)和离线安装(离线库) 6) Clients:是用于与服务器进行交互的接口(API和Admin Console) 2. 准备安装环境 主节点10g 其他节点2G 其他节点2G 硬盘情况: [root@hadoop104

redis配置文件参数说明

拟墨画扇 提交于 2021-01-10 10:03:52
配置文件参数说明 : 1. Redis默认不是以守护进程的方式运行,可以通过该配置项修改,使用yes启用守护进程 daemonizeno 2. 当Redis以守护进程方式运行时,Redis默认会把pid写入/var/run/redis.pid文件,可以通过pidfile指定 pidfile/var/run/redis.pid 3. 指定Redis监听端口,默认端口为6379,作者在自己的一篇博文中解释了为什么选用6379作为默认端口,因为6379在手机按键上MERZ对应的号码,而MERZ取自意大利歌女AlessiaMerz的名字 port6379 4. 绑定的主机地址 bind127.0.0.1 5.当 客户端闲置多长时间后关闭连接,如果指定为0,表示关闭该功能 timeout300 6. 指定日志记录级别,Redis总共支持四个级别:debug、verbose、notice、warning,默认为verbose loglevelverbose 7. 日志记录方式,默认为标准输出,如果配置Redis为守护进程方式运行,而这里又配置为日志记录方式为标准输出,则日志将会发送给/dev/null logfile stdout 8. 设置数据库的数量,默认数据库为0,可以使用SELECT<dbid>命令在连接上指定数据库id databases16 9. 指定在多长时间内,有多少次更新操作

大数据入门第十四天——Hbase详解(一)入门与安装配置

╄→尐↘猪︶ㄣ 提交于 2021-01-10 08:51:35
一、概述    1.什么是Hbase      根据官网: https://hbase.apache.org/    Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.    HBASE是一个高可靠性、高性能、 面向列 、可伸缩的分布式存储系统      中文简明介绍:   Hbase是 分布式、面向列 的开源数据库(其实准确的说是 面向列族 )。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。    2.什么是列式存储         使用网友的图就是:         其中更加深入的内部原理讲解,参考: http://blog.csdn.net/lifuxiangcaohui/article/details/39891099                       http://lib.csdn.net/article/datastructure/8951    3.为什么需要Hbase     以下介绍了一种Hbase出现的场景:        

Mac下报错'WARN security.UserGroupInformation: PriviledgedActionException as:用户名...No such file o...

眉间皱痕 提交于 2021-01-10 08:33:15
Mac下使用IDEA远程连接Hadoop调试MapReduce程序,参考网上博客,总会出现如题报错,下面是我在mac下的一种解决办法,可以参考。 前期准备 如果想远程调试,需要做一些准备工作,简单罗列下。 (1)在本地准备一份了hadoop(有博主直接从集群中copy一份),设置环境变量。 # hadoop路径为具体路径 export HADOOP_HOME=/Users/yangchaolin/hadoop2. 6.0 /hadoop- 2.6 . 0 -cdh5. 14.0 (2)IDEA工程下,将本地hadoop中share文件下的资源jar包都引入到项目中。 (3) 准备MapReduce程序,并创建一个application,这个application使用的工作目录就使用本地hadoop。 map端程序 1 package com.kaikeba.mapreduce; 2 3 import org.apache.hadoop.io.IntWritable; 4 import org.apache.hadoop.io.LongWritable; 5 import org.apache.hadoop.io.Text; 6 import org.apache.hadoop.mapreduce.Mapper; 7 8 import java.io.IOException; 9