Hive | 易学教程

ambari大数据集群+HIVE安装配置

阅读更多关于 ambari大数据集群+HIVE安装配置

源码安装对于新手来说往往费时费力，搭建好hadoop环境之后，再搭建hadoop生态中其他工具就更具挑战；此外，搭建好之后对于生态工具的管理以及监控也是不小的挑战，因此ambari及CDH并应运而生。ambari及CDH的诞生极大简化了大数据集群的配置安装及监控管理。这篇文章以ambari大数据集群的安装配置为例，记录整个过程。 PS：本文中用到的安装包均可从百度网盘获取： https://pan.baidu.com/s/1povy3VrUgNyd2ezWHbxFKA 提取密码： ufqd 前提假设： 1. 基础系统环境Centos 7.x，预备3台物理机或虚拟机或docker容器 //由于ambari安装比源码更耗资源，建议每台主机内存不少于4G，如果要加装其他工具，建议分配更大由于资源有限，本次示例以docker容器方式安装，分别规划了master(172.18.0.251), worker1(172.18.0.252), worker2(172.18.0.253)三个容器容器快速入门可参考地址： https://blog.51cto.com/taoismli/category8.html 2. 每台主机（容器）已配置好JDK centos配置JDK可参考地址： https://blog.51cto.com/taoismli/1963896 3. 每台主机（容器

[源码解析]Oozie来龙去脉之提交任务

阅读更多关于 [源码解析]Oozie来龙去脉之提交任务

[源码解析]Oozie来龙去脉之提交任务 0x00 摘要 Oozie是由Cloudera公司贡献给Apache的基于工作流引擎的开源框架，是Hadoop平台的开源的工作流调度引擎，用来管理Hadoop作业。本文是系列的第一篇，介绍Oozie的任务提交阶段。 0x01 问题我们从需求逆推实现，即考虑如果我们从无到有实现工作流引擎，我们需要实现哪些部分？从而我们可以提出一系列问题从而去Oozie中探寻。作为工作流引擎需要实现哪些部分？大致想了想，觉得需要有：任务提交任务持久化任务委托给某一个执行器执行任务调度任务回调，即任务被执行器完成后通知工作流引擎支持不同任务（同步，异步）控制任务之间逻辑关系（跳转，等待...) 状态监控，监控任务进度 ...... 因为篇幅和精力所限，我们无法研究所有源码，回答所有问题，所以我们先整理出部分问题，在后面Oozie源码分析中一一解答： Oozie分为几个模块？每个模块功能是什么？ Oozie如何提交任务？任务提交到什么地方？如何持久化？ Oozie任务有同步异步之分吗？ Oozie如何处理同步任务？ Oozie如何处理异步任务？任务的控制流节点（Control Flow Nodes）和动作节点（Action Nodes）之间如何跳转？ Oozie都支持什么类型的任务？Shell？Java? Hive?

大数据就业前景如何？现在学习大数据已经晚了吗？

阅读更多关于大数据就业前景如何？现在学习大数据已经晚了吗？

　大数据就业前景如何？现在学习大数据已经晚了吗？作为初入社会的大学生，或者想改变环境转行的同学，看到大数据技术开发者的高薪资都想进入这个行业，但是现在大数据技术依然想之前那样火爆吗？是不是学习了大数据技术就可以获得高薪呢？　　大数据从最开始的概念兴起，到现在各大互联网公司逐步推广使用。已经逐渐成熟，目前营销、电商、教育领域等等对大数据的应用已经初见效果。大数据也从最开始的概念过渡到实际应用领域。对技术人员的招聘也更加趋于理性。所以并非大数据技术不再火爆，而是企业对于大数据从业人员的要求提高了。　　根据招聘网站显示，目前大数据工作招聘需求，薪资普遍稳定在15-30K之间。其中目前刚入行的大数据工程师平均薪资在1万左右，而随着工作时间的增加，3~5年经验的大数据工程师的薪资待遇将达到3万元左右。　　据相关机构统计，未来的3~5内大数据人才的缺口将达到150万，而且随着大数据的发展，人才缺口将不断扩大，所以大数据不管是目前还是未来长期都将是紧缺人才，受到各大互联网企业的关注。　　如果你想投入大数据的怀抱，但却苦于不知如何下手。而当你准备学习大数据技术时，你可以了解一下博斌去计算大数据课程，主要是针对有一定编程开发经验的学员研发的课程。从大数据基础增强开始，内容精准聚焦大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等重要内容；涵盖了大数据体系中几乎所有的核心技术

大数据的下一站是什么？服务/分析一体化（HSAP）

阅读更多关于大数据的下一站是什么？服务/分析一体化（HSAP）

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！既然 HTAP 有了分析的能力，它是不是将取代大数据系统呢？大数据的下一站是什么？因为侧重点的不同，传统的数据库可以分为交易型的 OLTP 系统和分析型的 OLAP 系统。随着互联网的发展，数据量出现了指数型的增长，单机的数据库已经不能满足业务的需求。特别是在分析领域，一个查询就可能需要处理很大一部分甚至全量数据，海量数据带来的压力变得尤为迫切。这促成了过去十多年来以 Hadoop 技术开始的大数据革命，解决了海量数据分析的需求。与此同时，数据库领域也出现了一批分布式数据库产品来应对 OLTP 场景数据量的增长。为了对 OLTP 系统里的数据进行分析，标准的做法是把里面的数据定期（比如说每天）同步到一个 OLAP 系统中。这种架构通过两套系统保证了分析型查询不会影响线上的交易。但是定期同步导致了分析的结果并不是基于最新数据，这种延迟让我们失去了做出更及时的商业决策的机会。为了解决这个问题，近几年出现了 HTAP 的架构，这种架构允许我们对 OLTP 数据库里的数据直接进行分析，从而保证了分析的时效性。分析不再是传统的 OLAP 系统或者大数据系统特有的能力，一个很自然的问题是：既然 HTAP 有了分析的能力，它是不是将取代大数据系统呢？大数据的下一站是什么？背景

Spark SQL 物化视图原理与实践

阅读更多关于 Spark SQL 物化视图原理与实践

物化视图作为一种预计算的优化方式，广泛应用于传统数据库中，如Oracle，MSSQL Server等。随着大数据技术的普及，各类数仓及查询引擎在业务中扮演着越来越重要的数据分析角色，而物化视图作为数据查询的加速器，将极大增强用户在数据分析工作中的使用体验。本文将基于 Spark SQL（2.4.4） + Hive （2.3.6），介绍物化视图在 Spark SQL中的实现及应用。文章目录 1 什么是物化视图 2 物化视图现状及实践目标 2.1 SparkSQL目前有哪些预计算相关的优化呢？ 3 物化视图设计详解 3.1 SparkSQL + Hive 整合 3.1.1 为什么选择Hive2.3 4 Plan Rewrite 设计 4.1 设计概览 4.2 优化步骤简介 4.3 优化过程中的问题 4.3.1 列相等问题 4.3.2 条件匹配问题 4.3.3 表达式匹配问题 4.3.4 多表查询问题 4.3.5 聚合函数问题 4.3.6 多个物化视图匹配问题 5 物化视图实战 5.1 测试用的查询 5.2 测试用的物化视图 5.3 逻辑计划比较 5.4 Spark UI统计比较 5.5 性能数据比较 6 物化视图 VS Kylin 6.1 Kylin on HBase 6.2 Kylin on Parquet 7 总结 8 参考资料什么是物化视图

从 Exadata 到 TiDB，中通快递 HTAP 实践

阅读更多关于从 Exadata 到 TiDB，中通快递 HTAP 实践

作者介绍：朱志友，中通快递大数据架构师。中通快递背景介绍中通快递业务的规模目前是世界第一，是第一个达成年百亿业务量的快递企业，在 2019 年的双十一更是完成了订单量超过 2 亿的佳绩。中通科技是中通快递旗下的互联网物流科技平台，拥有一支千余人规模的研发团队，秉承着“互联网+物流”的理念，与公司的战略、业务紧密的衔接，为中通生态圈的业务打造全场景全链路的数字化平台服务。上图展示了快递物流的生命周期，简单举个例子，大家如果在某宝上下了一个订单，从付款结束开始，到商家打单，大家的包裹基本上就开启了一个快递的旅程。简单的介绍可以分为五个字，收发到派签，整个物流的全链路中可以拆解成以下的关键节点，客户下单之后快递员的揽收，揽收网点的建包，建包之后会把快递交到中心，至此快递就开启了转运和运输的过程，最终负责派件的末端网点会根据三段码的解析去末端的中心把快递拉到末端的快递网点进行分拣，分拣之后会指派到指定的快递员，进行派件，快递小哥会把快递送到客户的手里，客户完成签收，在我们看来这一票件就完成了快递的全链路的生命周期。在每个环节中会产生大量的数据，对每个环节的每一个数据我们都会进行相关的分析，包括时效的监控。 2017 年的时候，我们就已经开始关注 TiDB ，那时候的关注点主要在解决一些分库分表的问题上，从 2018 年底开始调研测试大数据，我们主要想去解决存储和计算的问题，2019

阿里云 MaxCompute 2020-6 月刊

阅读更多关于阿里云 MaxCompute 2020-6 月刊

导读【6月新发布功能】【6月新发布文档】【6月精选技术文章】【7月精选活动预告】【6月新发布功能】 1. MaxCompute备份与恢复功能（公测）发布 MaxCompute备份与恢复功能提供持续备份用户修改/删除历史数据，支持快速恢复，持续保护数据安全。适用客户对数据保护有强需求客户/担心数据误删除的客户/担心数据被恶意删除的客户，适合广泛的企业级客户。发布功能 MaxCompute提供数据备份与恢复功能，系统会自动备份数据的历史版本（例如被删除或修改前的数据）并保留一定时间，您可以对保留周期内的数据进行快速恢复，避免因误操作丢失数据。备份与恢复功能具备以下特点：默认开启，不需要手动开通 -- 该功能不依赖外部存储，系统默认为所有MaxCompute项目开放的数据保留周期为1天，备份和存储免费。自动持续备份 -- 系统自动对发生变更的数据进行备份，多次变更时将备份多个数据版本，相比固定周期性的备份策略，可以有效避免因误操作丢失数据。恢复快速，操作简单 -- MaxCompute具备先进的元数据和多数据版本管理能力，备份和恢复操作不占用额外的计算资源，您可以通过命令快速恢复不同规模的数据。查看文档 >> 2. MaxCompute通过DataWorks管控平台新建项目支持选择数据类型适用客户中国Region使用DataWorks管控台的客户发布功能

Spark SQL repartition 为啥生成的文件变大了？

阅读更多关于 Spark SQL repartition 为啥生成的文件变大了？

记录一个客户问题客户用Spark SQL的repartition接口来解决Hive ORC表小文件的问题，发现文件膨胀的很厉害比如原来有1000个小文件，总大小是500MB repartition(10) 再 insert overwrite之后 10个文件总大小是2～3GB 但是检查了一下最终的两个分区的 row count是一致的调查结论先说一下这两接口不同 repartition 把record完全打乱最终随机插入到10个文件有Shuffle coalesce 把相邻的分区的数据捏在一起，没有Shuffle 为啥shuffle打乱数据会让最终的表输出文件变大其实就是 ORC 数据编码问题原来的源分区其实是通过HashPartition的方式分布的，这样的数据分布可以让ORC的编码压缩得更加极致，而repartition完全打乱后导致本来在一个文件的相同记录分布到10个文件，那就是每个文件都有该记录的编码索引，那么最终文件就变大了所以推荐使用 coalesce 接口来做类似的事情来源： oschina 链接： https://my.oschina.net/u/4287236/blog/4295721

Airflow Dag可视化管理编辑工具Airflow Console

阅读更多关于 Airflow Dag可视化管理编辑工具Airflow Console

Airflow Console: https://github.com/Ryan-Miao/airflow-console Apache Airflow 扩展组件, 可以辅助生成dag, 并存储到git仓库. Airflow提供了基于python语法的dag任务管理,我们可以定制任务内容和任务依赖. 但对于很多数据分析人员来说,操作还是过于复杂. 期望可以通过简单的页面配置去管理dag. 即本项目提供了一个dag可视化配置管理方案. 如何使用一些概念 DAG : Airflow原生的dag，多个任务依赖组成的有向无环图，一个任务依赖链。 Ext Dag : DAG扩展， DAG生成模板，通过页面配置Ext Dag可以一键生成DAG python配置。 Ext Dag Category : Airflow原生不提供分类的概念，但Console我们扩展了分类功能, 我们创建不同Dag模板可以分属于不同的DAG分类。 Ext Dag Task : Ext Dag的任务，真正任务的封装体，分为Operator和Sensor, 可以组装成Ext Dag. 1.创建业务分类. 我们的调度任务可以根据业务进行分类. 首先创建我们的业务类型. 2.创建dag 3.创建任务点击task按钮进入task列表, 再点击add添加一个任务. 添加bash任务添加hive sql任务

环境篇：数据同步工具DataX

阅读更多关于环境篇：数据同步工具DataX

环境篇：数据同步工具DataX 1 概述 https://github.com/alibaba/DataX DataX是什么？ DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。设计理念为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。当前使用现状 DataX在阿里巴巴集团内被广泛使用，承担了所有大数据的离线同步业务，并已持续稳定运行了6年之久。目前每天完成同步8w多道作业，每日传输数据量超过300TB。 2 支持数据类型数据源 Reader(读) Writer(写) 文档 RDBMS 关系型数据库 MySQL √ √ 读、写 Oracle √ √ 读、写 SQLServer √ √ 读、写 PostgreSQL √ √ 读、写 DRDS √ √ 读、写达梦 √ √ 读、写通用RDBMS(支持所有关系型数据库) √ √ 读、写阿里云数仓数据存储 ODPS √ √ 读、写 ADS

订阅 Hive