Hive

hadoop实战视频教程 Hadoop深入浅出实战经典视频教程

﹥>﹥吖頭↗ 提交于 2021-01-12 03:22:47
最新在学习hadoop 、storm大数据相关技术,发现网上hadoop 、storm 相关学习视频少之又少,更可恶的是不少机构使用段海涛老师Hadoop视频进行商业买卖,气愤至急,我这里整理了传智播客段海涛老师的hadoop学习视频,分享出来给大家学习交流。 ps:传智播客是个不错的学习地方,段海涛老师视频中的表达也很有趣,中间还有内涵段子哈哈,希望大家多支持传智播客;此次分享只是供喜欢技术钻研新技术的同学学习交流,全新hadoop培训大纲,比之前七天的培训更加完善,非常适合想从事Hadoop开发学习的朋友们,另外整理java架构师的一些资料 教程下载地址: http://demo.liuy88.cn/jp0468.html 第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和伪分布式安装.avi 06-hadoop版本选择和伪分布式安装2.avi 07-hdfs&mapreduce测试.avi 08-hdfs的实现机制初始.avi 09-hdfs的shell操作.avi 10-hadoop集群搭建的无密登陆配置.avi 第二天

Hadoop开发 Hadoop视频教程 段海涛老师Hadoop完全攻克Hadoop视频教程 Hadoop开发

假如想象 提交于 2021-01-12 03:19:51
最新在学习hadoop 、storm大数据相关技术,发现网上hadoop 、storm 相关学习视频少之又少,更可恶的是不少机构使用段海涛老师Hadoop视频进行商业买卖,气愤至急,我这里整理了传智播客段海涛老师的hadoop学习视频,分享出来给大家学习交流。 ps:传智播客是个不错的学习地方,段海涛老师视频中的表达也很有趣,中间还有内涵段子哈哈,希望大家多支持传智播客;此次分享只是供喜欢技术钻研新技术的同学学习交流,全新hadoop培训大纲,比之前七天的培训更加完善,非常适合想从事Hadoop开发学习的朋友们,另外整理java架构师的一些资料 视频下载地址: http://demo.liuy88.cn/jp0471.html 第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和伪分布式安装.avi 06-hadoop版本选择和伪分布式安装2.avi 07-hdfs&mapreduce测试.avi 08-hdfs的实现机制初始.avi 09-hdfs的shell操作.avi 10-hadoop集群搭建的无密登陆配置.avi 第二天

面试经验

Deadly 提交于 2021-01-11 11:11:35
面试经验 1, 外在形象 :阳光大男孩,活泼小女孩,ps照片形象佳。 2, 投简历时间 :早上8-10点。 3, 简历突出重点 : 软技巧– 责任描述: 业务沟通与建模,技术选型,算法与数据结构实现,环境搭建与机器部署,前后端分离开发,架构设计,任务分配,数据库建模,jvm调优,sql优化, nuix问题解决与维护,利用awx集群利用sql实时分析和hive离线分析,采用python进行通用框架设计辅助分析,进行公司shell脚本的优化和python代码优化, 改善公司数据的吞吐量,mysql优化 介绍一下这个项目 : 客户,预算,几个版本,第几期,多长时间,大概业务 , 业务名词 :重点准备几个比如房地产的备案,验证审批环节 技术架构 :软件架构,硬件架构。多台服务器,哪些服务,多少台服务器跑缓存,多少台服务器跑数据库,每个服务器配置linux,cpu核数,内存。(与jvm调优相关) 项目有什么地方可以改进 :以前比较老,现在用这些技术可以改进(新的技术,新的架构) 多大规模 (多少行代码,多少张表,你的模块的表结构,表里有多少字段,为什么这么设计), 多少人参与,分别是哪些人,我在其中担任的角色是什么 :多少前端,开发,测试。。开发,架构 我主要负责哪些部分 :哪些模块,业务,出彩的地方 数据量,并发量多大。我负责的点说清楚,每天数据量,并发量(QPS,TPS,日活量(压测体现

Hadoop三大组件以及Hive的基础认知

落花浮王杯 提交于 2021-01-11 08:28:11
Hadoop三大组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的 服务器 上(分布式存储) 分布式运算编程框架:MapReduce——实现多台机器的分布式并行运算。(分布式运算) 分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源 Hive 入门 Hive构建在Hadoop上 HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的所有的数据存储在Hadoop上。 查询计划被转化为 MapReduce 任务(job),在 Hadoop 中执行(有些查询没有 MR 任务,如:select * from table) Hadoop和Hive都是用UTF-8编码的 常见数据库(database简称DB) 关系型数据库(关系型数据库就是由二维表及其之间的联系组成的一个数据组织): mysql oracle sqlServer postgresql(小oracle) 非关系型数据库:mangodb hbase redis 数据仓库datawarehouse简称DW(数据处理分为两大类,) 数据仓库和数据库的区别: 数据仓库的数据量大,数据库以数据量小 数据仓库可新增但很慢,且复杂并且不能修改删除,一般只用于大批量查询; 数据库支持量小的增删改查 数据仓库是用来分析(OLAP)的,以读操作为主;数据库主要用来处理事务

Cloudera Manager的安装

一世执手 提交于 2021-01-10 10:33:25
1. cloudera manager的概念 简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 功能: 1) 管理:对集群进行管理,如添加、删除节点等操作。 2) 监控:监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控。 3) 诊断:对集群出现的问题进行诊断,对出现的问题给出建议解决方案。 4) 集成:多组件进行整合。 架构: 1) Server:负责软件安装、配置,启动和停止服务,管理服务运行的群集。 核心 2) Agent:安装在每台主机上。负责 启动和停止进程, 配置,监控主机。 3) Management Service:由一组执行各种监控,警报和报告功能角色的服务。 图表的生成和管理 4) Database:存储配置和监视信息。 5) Cloudera Repository:软件由Cloudera 管理分布存储库。(有点 类似Maven的中心仓库 ) ;在线安装(从中心仓库拉取)和离线安装(离线库) 6) Clients:是用于与服务器进行交互的接口(API和Admin Console) 2. 准备安装环境 主节点10g 其他节点2G 其他节点2G 硬盘情况: [root@hadoop104

#Note# Analyzing Twitter Data with Apache Hadoo...

只谈情不闲聊 提交于 2021-01-10 08:33:36
#Note# Analyzing Twitter Data with Apache Hadoop 系列 1、2、3 Andy erpingwu@gmail.com 2013/09/28-2013/09/30 markdown的语法高亮格式在oschina的blog上有问题,在git.oschina.net上没有问题 http://git.oschina.net/wuerping/notes/blob/master/2013/2013-09-30/AnalyzingTwitterDatawithApacheHadoop.md Analyzing Twitter Data with Apache Hadoop by Jon Natkins September 19, 2012 http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/ 这是这个系列的第一篇,讲的是如何用 Apache Flume , Apache HDFS , Apache Oozie , 和 Apache Hive 去设计一个能够分析 Twitter数据的,端到端的数据 pipeline。 相关代码在 Cloudera Github . Who is Influential? Now we know the question we

数据生成器

你离开我真会死。 提交于 2021-01-09 11:10:48
data-generator 是一个Java实现的数据生成器开源项目。 如果你在从事大数据BI的工作,想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse等不同实现方案之间的表现,那你就需要一份标准的数据进行测试,这个开源项目就是为了生成这样的标准数据。 数据模型:src/main/resources/数据模型.png 一、编译程序: mvn assembly:assembly 二、在MySQL中创建一个数据库,然后执行 src/main/resources/model_ddl.sql 创建对应的表。 三、指定ES的经纬度类型: curl -H "Content-Type: application/json" -XPUT 'http://192.168.252.193:9200/contract/contract/_bulk' -d ' { "index":{ "_id": 1} } {"id":1} ' curl -H "Content-Type: application/json" -XPUT 'http://192.168.252.193:9200/contract/_mapping/contract' -d ' { "properties":

一文教你学会Hive视图和索引

a 夏天 提交于 2021-01-08 09:41:17
前言 我们在写HQL有没有遇到过数据量特别大的时候比如,使用HQL 处理起来非常复杂,非常慢,这时候我们可以使用Hive给加个索引来提高我们的速度。多了就不说了,我们直接开始。 一、Hive视图 1.1 简介 Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用 视图 时,Hive 可以将视图的定义与查询结合起来,例如将查询中的 过滤器推送到视图 中。 1.2 特点 不支持物化视图 只查询,不能做加载数据操作 视图的创建,只是保存 一份元数据 ,查询视图才执行对应的子查询 view定义中若包含了ORDER BY/LIMIT语句,当查询视图时也进行了ORDER BY/LIMIT语句操作,view当中定义的优先级更高 ; Hive视图支持迭代视图 1.3 创建视图 CREATE VIEW [ IF NOT EXISTS ] [db_name.]view_name -- 视图名称 [(column_name [ COMMENT column_comment], ...) ] --列名 [ COMMENT view_comment] --视图注释 [TBLPROPERTIES (property_name = property

Apache Hudi 介绍与应用

百般思念 提交于 2021-01-08 07:52:32
Apache Hudi Apache Hudi 在基于 HDFS/S3 数据存储之上,提供了两种流原语: 插入更新 增量拉取 一般来说,我们会将大量数据存储到HDFS/S3,新数据增量写入,而旧数据鲜有改动,特别是在经过数据清洗,放入数据仓库的场景。而且在数据仓库如 hive中,对于update的支持非常有限,计算昂贵。另一方面,若是有仅对某段时间内新增数据进行分析的场景,则hive、presto、hbase等也未提供原生方式,而是需要根据时间戳进行过滤分析。 在此需求下,Hudi可以提供这两种需求的实现。第一个是对record级别的更新,另一个是仅对增量数据的查询。且Hudi提供了对Hive、presto、Spark的支持,可以直接使用这些组件对Hudi管理的数据进行查询。 存储类型 我们看一下 Hudi 的两种存储类型: 写时复制(copy on write):仅使用列式文件(parquet)存储数据。在写入/更新数据时,直接同步合并原文件,生成新版本的基文件(需要重写整个列数据文件,即使只有一个字节的新数据被提交)。此存储类型下,写入数据非常昂贵,而读取的成本没有增加,所以适合频繁读的工作负载,因为数据集的最新版本在列式文件中始终可用,以进行高效的查询。 读时合并(merge on read):使用列式(parquet)与行式(avro)文件组合,进行数据存储。在更新记录时

如何在Redhat7.4的CDH5.15中启用Kerberos

﹥>﹥吖頭↗ 提交于 2021-01-07 07:27:25
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 在前面的文章中,Fayson介绍了《 如何在Redhat7.4安装CDH5.15 》,这里我们基于这个环境开始安装MIT Kerberos。关于在CDH中启用Kerberos也可以参考之前的文章《 如何在CDH集群启用Kerberos 》,《 如何在Redhat7.3的CDH5.14中启用Kerberos 》和《 如何在CDH6.0.0-beta1中启用Kerberos 》。本文Fayson主要介绍如何而在Redhat7.4的CDH5.15中启用Kerberos。 内容概述: 1.如何安装及配置KDC服务 2.如何通过CDH启用Kerberos 3.如何登录Kerberos并访问Hadoop相关服务 4.总结 测试环境: 1.操作系统:Redhat7.4 2.CDH5.15 3.采用root用户进行操作 2.KDC服务安装及配置 本文档中将KDC服务安装在Cloudera Manager Server所在服务器上(KDC服务可根据自己需要安装在其他服务器) 1.在Cloudera Manager服务器上安装KDC服务 [root@ip-