udf

【翻译】Flink Table Api & SQL — Hive —— Hive 函数

醉酒当歌 提交于 2020-04-24 08:20:35
本文翻译自官网:Hive Functions https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/hive/hive_functions.html Flink Table Api & SQL 翻译目录 用户可以在Flink中使用 Hive 现有的自定义函数。 支持的UDF类型包括: UDF GenericUDF GenericUDTF UDAF GenericUDAFResolver2 根据查询的计划和执行,Hive的UDF和GenericUDF会自动转换为Flink的ScalarFunction,Hive的GenericUDTF会自动转换为Flink的TableFunction,Hive的UDAF和GenericUDAFResolver2会转换为Flink的AggregateFunction。 要使用Hive用户定义的函数,用户必须 设置由Hive Metastore支持的HiveCatalog,其中包含该函数作为会话的当前 catalog 在Flink的classpath中包含该函数的 jar 使用 Blink planner 使用Hive 自定义的函数 假设我们在Hive Metastore中注册了以下Hive函数: /** * Test simple udf. Registered

美团点评基于 Flink 的实时数仓平台实践

混江龙づ霸主 提交于 2020-04-18 12:17:03
一、美团点评实时计算演进 美团点评实时计算演进历程 在 2016 年,美团点评就已经基于 Storm 实时计算引擎实现了初步的平台化。2017 年初,我们引入了 Spark Streaming 用于特定场景的支持,主要是在数据同步场景方面的尝试。在 2017 年底,美团点评实时计算平台引入了 Flink。相比于 Storm 和 Spark Streaming,Flink 在很多方面都具有优势。这个阶段我们进行了深度的平台化,主要关注点是安全、稳定和易用。从 19 年开始,我们致力于建设包括实时数仓、机器学习等特定场景的解决方案来为业务提供更好的支持。 实时计算平台 目前,美团点评的实时计算平台日活跃作业数量为万级,高峰时作业处理的消息量达到每秒 1.5 亿条,而机器规模也已经达到了几千台,并且有几千位用户正在使用实时计算服务。 实时计算平台架构 如下图所示的是美团点评实时计算平台的架构。 最底层是收集层,这一层负责收集用户的实时数据,包括 Binlog、后端服务日志以及 IoT 数据,经过日志收集团队和 DB 收集团队的处理,数据将会被收集到 Kafka 中。这些数据不只是参与实时计算,也会参与离线计算。 收集层之上是存储层,这一层除了使用 Kafka 做消息通道之外,还会基于 HDFS 做状态数据存储以及基于 HBase 做维度数据的存储。 存储层之上是引擎层,包括 Storm

MaxCompute规格详解 让您花更低的成本获得更高的业务价值

旧街凉风 提交于 2020-04-16 15:13:35
【推荐阅读】微服务还能火多久?>>> 精彩视频回看请点击: MaxCompute规格详解 以下为精彩视频内容整理: 在用户使用MaxCompute之前,都会考虑成本和业务两大问题。有些企业处在快速的发展期,在业务上对性能的要求比较高,例如计算业务对资源的需求是弹性的,要求峰谷明显,一段时间对资源的要求非常高,另一段时间对资源的要求是比较低的,这种类型属于业务优先于成本。还有一些企业对预算有严格的要求,例如进行合同制的企业,在前期必须要有明确的预算,但对性能的要求不是很高,只需要在当天能够完成任务。基于以上两大场景MaxCompute推出了一系列格和计费方式。 服务模式 MaxCompute服务模式 MaxCompute的服务模式有两种方式,按量计费和包年包月。开通MaxCompute相当于对服务进行注册,同时产生有协议的订单,订单成功后即可使用该服务。按量计费是指整个订单计费模式都为使用之后再按量计费,包括计算、存储、下载几大块主要功能。开通时为0元开通,开通后若不使用则无费用产生。包年包月是指订单计费模式为混合模式,计算资源是按包年包月进行预付费,存储和下载则为使用之后在按量计费。开通时需要预先对计算资源进行付款。 MaxCompute计费方式 MaxCompute费用由三部分组成,存储费用、计算费用和下载费用。 存储费用按存储的数据容量大小进行阶梯计费

MaxCompute问答整理之2020-03月

此生再无相见时 提交于 2020-04-15 11:34:08
【推荐阅读】微服务还能火多久?>>> 本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。 问题一、在 MaxCompute SQL执行过程中,报错Table xx has n columns, but query has m columns如何处理? MaxCompute SQL使用INSERT INTO/OVERWRITE插入数据时,需要保证SELECT查询出 来的字段和插入的表的字段匹配,匹配内容包括顺序、字段类型,总的字段数量。目前 MaxCompute不支持插入表的指定字段,其他字段为NULL或者其他默认值的情况,您可以 在SELECT的时候设置成NULL,例如SELECT ‘a’,NULL FROM XX。 问题二、MaxCompute 中使用什么方法可以实现相同字段连接,将group by产生的同一个分组中的值连接起来,返回一个字符串结果。类似MySql中的group_concat()函数? MaxCompute可以使用WM_CONCAT函数来实现相同字段连接。具体函数说明可参考: https://help.aliyun.com/document_detail/48975.html 问题三、如何在MaxCompute Java SDK上使用Logview排错? MaxCompute Java

Apache MADlib 综述

半城伤御伤魂 提交于 2020-04-09 17:28:42
随着数据规模的不断扩大,目前,许多现有的分析解决方案都无法胜任大规模数据量的计算任务。利用MADlib项目来创建一个框架,以满足大规模数据量的需求,该框架旨在利用现代计算能力,提供适应业务需求的强大解决方案。 概述 MADlib实现方案来自商业实践、学术研究和开源开发社区的多方面努力,它是一个基于SQL的数据库内置的可扩展的开源机器学习库,由Pivotal与UCBerkeley合作开发。MADlib创始于2011年,当时属于EMC/Greenplum,后来Greenplum变成了pivotal的Greenplum。主要由伯克利的学者:Joe Hellerstein发起,Stanford, University of Wisconsin-MADISON和University of Florida也有参与。MAD一词来源于:Magnetic、Agile、Deep三个词的首字母,意为有吸引力的、快速的、精准深入的,三个单词连在一起,意思是“极好的”,旨在为数据科学家们提供一个极好的机器学习和数据分析平台。 MADlib提供了丰富的分析模型,包括回归分析,决策树,随机森林,贝叶斯分类,向量机,风险模型,KMEAN聚集,文本挖掘,数据校验等。MADlib支持Greenplum,PostgreSQL 以及 Apache HAWQ, In-Database

一篇文章教会你MaxCompute的函数操作

走远了吗. 提交于 2020-04-05 20:31:37
云栖号快速入门: 【点击查看更多云产品快速入门】 不知道怎么入门?这里分分钟解决新手入门等基础问题,可快速完成产品配置操作! 本文为您介绍如何通过客户注册、注销函数以及查看函数清单。 您可以通过客户端使用常用命令对函数进行操作,也可以通过DataWorks可视在线数据开发工具对资源进行新建、搜索等操作。 注册函数 命令格式 CREATE FUNCTION <function_name> AS <package_to_class> USING <resource_list>; 参数说明 function_name: 新建的UDF函数名称。函数名称需要唯一,同名函数只能注册一次。 package_to_class: 包名,此名称须用引号引起。 (1).Java UDF,此名称为从顶层包名一直到实现UDF类的类名。 (2).Python UDF,此名称为Python脚本名.类名。 resource_list: UDF所用到的资源列表。 (1).此资源列表必须包括UDF代码所在的资源,且资源已经上传至MaxCompute。 (2).如果您的代码通过Distributed Cache接口读取资源文件,此列表中还要包括UDF所读取的资源文件列表。 (3).资源列表由多个资源名组成,资源名之间由逗号分隔,且资源列表必须用引号引起。 (4).如果需要指定资源所在的Project,写法为

Flink 生态:一个案例快速上手 PyFlink

你。 提交于 2020-03-23 21:56:27
3 月,跳不动了?>>> 云栖号: https://yqh.aliyun.com 第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策! Flink 从 1.9.0 版本开始增加了对 Python 的支持(PyFlink),在刚刚发布的 Flink 1.10 中,PyFlink 添加了对 Python UDFs 的支持,现在可以在 Table API/SQL 中注册并使用自定义函数。PyFlink 的架构如何,适用于哪些场景?本文将详细解析并进行 CDN 日志分析的案例演示。 PyFlink 的必要性 Flink on Python and Python on Flink PyFlink 是什么?这个问题也许会让人感觉问题的答案太明显了,那就是 Flink + Python,也就是 Flink on Python。那么到底 Flink on Python 意味着这什么呢?那么一个非常容易想到的方面就是能够让 Python 用享受到 Flink 的所有功能。其实不仅如此,PyFlink 的存在还有另外一个非常重要的意义就是,Python on Flink,我们可以将 Python 丰富的生态计算能力运行在 Flink 框架之上,这将极大的推动 Python 生态的发展。其实,如果你再仔细深究一下,你会发现这个结合并非偶然。 Python

Flink Weekly | 每周社区动态更新

独自空忆成欢 提交于 2020-03-23 20:41:14
3 月,跳不动了?>>> 作者:张成 大家好,本文为 Flink Weekly 的第八期,由张成整理,主要内容包括:近期社区开发进展,邮件问题答疑以及 Flink 最新社区动态及本周社区直播内容推荐。 Flink 开发进展 ■ Yangze Guo 在 FLIP-108 中建议 Flink 支持对 GPU 的资源管理。 [1] http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-108-Add-GPU-support-in-Flink-tp38286.html ■ 从 Flink 1.10.0 开始,Apache Flink 项目开始维护 Flink Docker。 [2] http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-111-Docker-image-unification-tp38444.html ■ Arvid 更新了 FLIP-76(Unaligned Checkpoints),并希望尽快进行投票。 [3] http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-76

Flink 生态:一个案例快速上手 PyFlink

℡╲_俬逩灬. 提交于 2020-03-20 23:17:29
3 月,跳不动了?>>> 云栖号: https://yqh.aliyun.com 第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策! Flink 从 1.9.0 版本开始增加了对 Python 的支持(PyFlink),在刚刚发布的 Flink 1.10 中,PyFlink 添加了对 Python UDFs 的支持,现在可以在 Table API/SQL 中注册并使用自定义函数。PyFlink 的架构如何,适用于哪些场景?本文将详细解析并进行 CDN 日志分析的案例演示。 PyFlink 的必要性 Flink on Python and Python on Flink PyFlink 是什么?这个问题也许会让人感觉问题的答案太明显了,那就是 Flink + Python,也就是 Flink on Python。那么到底 Flink on Python 意味着这什么呢?那么一个非常容易想到的方面就是能够让 Python 用享受到 Flink 的所有功能。其实不仅如此,PyFlink 的存在还有另外一个非常重要的意义就是,Python on Flink,我们可以将 Python 丰富的生态计算能力运行在 Flink 框架之上,这将极大的推动 Python 生态的发展。其实,如果你再仔细深究一下,你会发现这个结合并非偶然。 Python

Flink Weekly | 每周社区动态更新

久未见 提交于 2020-03-20 22:55:01
3 月,跳不动了?>>> 作者:张成 大家好,本文为 Flink Weekly 的第八期,由张成整理,主要内容包括:近期社区开发进展,邮件问题答疑以及 Flink 最新社区动态及本周社区直播内容推荐。 Flink 开发进展 ■ Yangze Guo 在 FLIP-108 中建议 Flink 支持对 GPU 的资源管理。 [1] http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-108-Add-GPU-support-in-Flink-tp38286.html ■ 从 Flink 1.10.0 开始,Apache Flink 项目开始维护 Flink Docker。 [2] http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-111-Docker-image-unification-tp38444.html ■ Arvid 更新了 FLIP-76(Unaligned Checkpoints),并希望尽快进行投票。 [3] http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-76