Hive | 易学教程

滴滴 Flink-1.10 升级之路

阅读更多关于滴滴 Flink-1.10 升级之路

简介：滴滴实时计算引擎从 Flink-1.4 无缝升级到 Flink-1.10 版本，做到了完全对用户透明。并且在新版本的指标、调度、SQL 引擎等进行了一些优化，在性能和易用性上相较旧版本都有很大提升。一、背景在本次升级之前，我们使用的主要版本为 Flink-1.4.2，并且在社区版本上进行了一些增强，提供了 StreamSQL 和低阶 API 两种服务形式。现有集群规模达到了 1500 台物理机，运行任务数超过 12000 ，日均处理数据 3 万亿条左右。不过随着社区的发展，尤其是 Blink 合入 master 后有很多功能和架构上的升级，我们希望能通过版本升级提供更好的流计算服务。今年 2 月份，里程碑版本 Flink-1.10 发布，我们开始在新版上上进行开发工作，踏上了充满挑战的升级之路。二、 Flink-1.10 新特性作为 Flink 社区至今为止的最大的一次版本升级，加入的新特性解决了之前遇到很多的痛点。 1. 原生 DDL 语法与 Catalog 支持 Flink SQL 原生支持了 DDL 语法，比如 CREATE TABLE/CREATE FUNCTION，可以使用 SQL 进行元数据的注册，而不需要使用代码的方式。也提供了 Catalog 的支持，默认使用 InMemoryCatalog 将信息临时保存在内存中，同时也提供了

Presto系列 | Presto基本介绍

阅读更多关于 Presto系列 | Presto基本介绍

前言 Presto是一款Facebook开源的MPP架构的OLAP查询引擎，可针对不同数据源执行大容量数据集的一款分布式SQL执行引擎。因为工作中接触到Presto，研究它对理解SQL Parser、常见算子的实现（如SQL中table scan,join,aggregation）、资源管理与调度、查询优化（如向量化执行、动态代码生成）、大数据下各个组件为何适用不同场景等等都有帮助。我希望通过这个系列可以了解一条SQL在大数据场景下该如何高效执行。233酱准备不定时持续更新这个系列，本文主要从Presto的使用举例，Presto的应用场景、Presto的基本概念三个部分来初步介绍Presto。 Presto的使用举例比如说，你想对存储在不同数据源中的数据，如HDFS、Mysql、HBase等通过一个SQL做查询分析，那么只需要把每一个数据源当成是Presto的Connector，对应实现Presto SPI暴露出的Connector API就可以了。 hbase 和 es 的Join查询举例 Presto官方版和 Presto社区版已经支持了很多Connector，社区版略胜一筹。至于两者有何区别，吃瓜群众可以前往文末参考资料[4]。简而言之，都主要由Facebook那帮大佬核心维护。社区版更新更为频繁，但高版本需要JDK11才能支持；官方版JDK8就行

Flink 助力美团数仓增量生产

阅读更多关于 Flink 助力美团数仓增量生产

简介：本文由美团研究员、实时计算负责人鞠大升分享，主要介绍 Flink 助力美团数仓增量生产的应用实践。内容包括：1、数仓增量生产；2、流式数据集成；3、流式数据处理；4、流式 OLAP 应用；5、未来规划。一、数仓增量生产 1.美团数仓架构先介绍一下美团数仓的架构以及增量生产。如下图所示，这是美团数仓的简单架构，我把它叫做三横四纵。所谓三横，第一是贯穿全链路的元数据以及血缘，贯穿数据集成、数据处理、数据消费、以及数据应用的全过程链路。另外一块贯穿全链路的是数据安全，包括受限域的认证系统、权限系统、整体的审计系统。根据数据的流向，我们把数据处理的过程分为数据集成、数据处理、数据消费、以及数据应用这 4 个阶段。在数据集成阶段，我们对于公司内部的，比如说用户行为数据、日志数据、DB 数据、还有文件数据，都有相应的集成的系统把数据统一到我们的数据处理的存储中，比如说 Kafka 中。在数据处理阶段，分为流式处理链路、批处理链路以及基于这套链路的数仓工作平台（万象平台）。生产出来的数据，经过 Datalink 导入到消费的存储中，最终通过应用以不同的形式呈现出来。我们目前在 Flink 上面应用比较广泛的地方，包括从 Kafka 把数据导到 Hive，包括实时的处理，数据导出的过程。今天的分享就集中在这些方面。 2.美团 Flink 应用概况美团的 Flink 目前大概有

必备干货 | Hbase简介以及数据结构和表详解

阅读更多关于必备干货 | Hbase简介以及数据结构和表详解

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷先生的新书《分布式机器学习实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录前言 Hbase原理和功能介绍 1. Hbase特性 2. Hbase的架构核心组件 Hbase数据结构和表详解总结前言 Hbase 经常用来存储实时数据，比如Storm/Flink/Spark-Streaming消费用户行为日志数据进行处理后存储到Hbase，通过Hbase的API也能够毫秒级别的实时查询。如果是对Hbase做非实时的离线数据统计，我们可以通过Hive建一个到Hbase的映射表，然后写Hive SQL来对Hbase的数据进行统计分析。并且这种方式可以方便的和其它的Hive表做关联查询，做更复杂的统计。所以从交互形势上Hbase满足了实时和离线的应用场景，在互联网公司应用的也非常普遍。 Hbase原理和功能介绍 HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目

NoSuchFieldException: parentOffset - Hive on Spark

阅读更多关于 NoSuchFieldException: parentOffset - Hive on Spark

问题 I'm trying to run Hive on Spark locally. I have followed all the configurations on the hive official site. On the hive console, I firstly created a simple table and tried to insert a few values into it. set hive.cli.print.current.db=true; create temporary table sketch_input (id int, category char(1)); insert into table sketch_input values (1, 'a'), (2, 'a'), (3, 'a'), (4, 'a'), (5, 'a'), (6, 'a'), (7, 'a'), (8, 'a'), (9, 'a'), (10, 'a'), (6, 'b'), (7, 'b'), (8, 'b'), (9, 'b'), (10, 'b'), (11,

Hive: Is there a way to get the aggregates of all the numeric columns existing in a table?

阅读更多关于 Hive: Is there a way to get the aggregates of all the numeric columns existing in a table?

问题 I have a table containing over 50 columns (both numeric and char), is there a way to get the overall statistics without specifying each column? As an example: a b c d 1 2 3 4 5 6 7 8 9 10 11 12 Ideally I would have something like: column_name min avg max sum a 1 5 9 15 b 2 6 10 18 c 3 7 11 21 d 4 8 12 24 Nevertheless, getting one aggregate at a time it would be more more than helpful. Any help/idea would be highly appreciated. Thank you, O 回答1: You can parse DESCRIBE TABLE output using AWK

Flink 助力美团数仓增量生产

阅读更多关于 Flink 助力美团数仓增量生产

How to move Amazon S3 objects into partitioned directories

阅读更多关于 How to move Amazon S3 objects into partitioned directories

问题 Take for example an s3 bucket with the following structure with files of the form francescototti_yyyy_mm_dd_hh.csv.gz: For example: francescototti_2019_05_01_00.csv.gz, francescototti_2019_05_01_01.csv.gz, francescototti_2019_05_01_02.csv.gz, ..... francescototti_2019_05_01_23.csv.gz, francescototti_2019_05_02_00.csv.gz Each hourly file is about 30 MB. I would like the final hive table to be partitioned by day stored as orc files. What is the best way to do this? I imagine a few ways,

why boolean field is not working in Hive?

阅读更多关于 why boolean field is not working in Hive?

问题 I have a column in my hive table which datatype is boolean. when I tried to import data from csv, it stored as NULL. This is my sample table : CREATE tABLE if not exists Engineanalysis( EngineModel String, EnginePartNo String , Location String, Position String, InspectionReq boolean) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'; My sample data : AB01,AS01-IT01,AIRFRAME,,0 AB02,AS01-IT02,AIRFRAME,,1 AB03,AS01-IT03,AIRFRAME,,1 AB04,AS01-IT04,AIRFRAME,,1 AB05,AS01-IT05

why boolean field is not working in Hive?

阅读更多关于 why boolean field is not working in Hive?

订阅 Hive