udf

BigQuery UDF Internal Error

纵饮孤独 提交于 2019-12-04 05:03:32
问题 We had a simple UDF in BigQuery that somehow throws an error that keeps returning Query Failed Error: An internal error occurred and the request could not be completed. The query was simply trying to use UDF to perform a SHA256. SELECT input AS title, input_sha256 AS title_sha256 FROM SHA256( SELECT title AS input FROM [bigquery-public-data:hacker_news.stories] GROUP BY input ) LIMIT 1000 The in-line UDF is pasted below. However I can not post the full UDF as StackOverflow complaints too much

大数据教程(12.3)Hive函数

て烟熏妆下的殇ゞ 提交于 2019-12-03 20:15:49
本篇博客博主将分享Hive函数的基础知识. 1.内置运算符(https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF) 2.内置函数(https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF) #查看函数 SHOW FUNCTIONS; DESCRIBE FUNCTION <function_name>; DESCRIBE FUNCTION EXTENDED <function_name>; 3.测试各种内置函数的快捷方法: a.创建一个dual表: create table dual(id string); b.load一个文件(一行,一个空格)到dual表 load data local inpath '/home/hadoop/dual.dat' into table dual; c.select substr('angelababy',2,3) from dual; 4.Hive自定义函数和Transform 当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 自定义函数类别: UDF 作用于单个数据行,产生一个数据行作为输出。

Unable to use an existing Hive permanent UDF from Spark SQL

↘锁芯ラ 提交于 2019-12-03 08:26:13
问题 I have previously registered a UDF with hive. It is permanent not TEMPORARY . It works in beeline. CREATE FUNCTION normaliseURL AS 'com.example.hive.udfs.NormaliseURL' USING JAR 'hdfs://udfs/hive-udfs.jar'; I have spark configured to use the hive metastore. The config is working as I can query hive tables. I can see the UDF; In [9]: spark.sql('describe function normaliseURL').show(truncate=False) +-------------------------------------------+ |function_desc | +---------------------------------

Unable to use an existing Hive permanent UDF from Spark SQL

走远了吗. 提交于 2019-12-02 23:47:07
I have previously registered a UDF with hive. It is permanent not TEMPORARY . It works in beeline. CREATE FUNCTION normaliseURL AS 'com.example.hive.udfs.NormaliseURL' USING JAR 'hdfs://udfs/hive-udfs.jar'; I have spark configured to use the hive metastore. The config is working as I can query hive tables. I can see the UDF; In [9]: spark.sql('describe function normaliseURL').show(truncate=False) +-------------------------------------------+ |function_desc | +-------------------------------------------+ |Function: default.normaliseURL | |Class: com.example.hive.udfs.NormaliseURL | |Usage: N/A.

hive自定义udf实现md5功能

我怕爱的太早我们不能终老 提交于 2019-12-02 16:22:22
Hive自定义UDF实现md5算法 Hive发展至今,自身已经非常成熟了,但是为了灵活性,还是提供了各种各样的 插件的方式,只有你想不到的,没有做不到的,主流的开源框架都有类似的机制,包括Hadoop,Solr,Hbase,ElasticSearch,这也是面向抽象编程的好处,非常容易扩展。 最近在使用hive1.2.0的版本,因为要给有一列的数据生成md5签名,便于查重数据使用,看了下hive的官网文档发现是支持的,后来在Hue里面试了下,发现不支持,还以为是Hue的问题于是在后台hive命令行里面试了下,发现同样不支持,官网的文档应该是Hive2.x的了所以不支持也有可能,但也没必要为了使用个md5函数就把hive升级到最新版本,那样有点本末倒置,那就写个UDF解决吧,以前写过Pig的UDF,非常简单,Hive的应该也不会太难,看了官网文档,果然非常easy,下面看下步骤: (1) 继承UDF类,定义evaluate方法 注意,这里用的是maven项目,只需要引入hive-exec包即可: <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.2.1</version> <scope>provided</scope> </dependency>

0011-如何在Hive & Impala中使用UDF

一个人想着一个人 提交于 2019-12-02 16:22:11
1.文档编写目的 本文档讲述如何开发Hive自定义函数(UDF),以及如何在Impala中使用Hive的自定义函数,通过本文档,您将学习到以下知识: 1.如何使用Java开发Hive的自定义函数 2.如何在Hive中创建自定义函数及使用 3.如何在Impala中使用Hive的自定义函数 这篇文档将重点介绍UDF在Hive和Impala的使用,并基于以下假设: 1.集群环境正常运行 2.集群安装Hive和Impala服务 以下是本次测试环境,但不是本操作手册的硬限制: 1.操作系统:Redhat6.5 2.CDH和CM版本为5.11.1 3.采用sudo权限的ec2-user用户进行操作 2.UDF函数开发 使用Intellij工具开发Hive的UDF函数,进行编译; 1.使用Intellij工具通过Maven创建一个Java工程 2.pom.xml文件中增加Hive包的依赖 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.1.0</version> </dependency> 3.Java示例代码如下 package com.peach.date; import org.apache.hadoop.hive.ql.exec.UDF;

How to extract rows from a json array using the mysql udf json_extract 0.4.0?

扶醉桌前 提交于 2019-12-02 09:21:57
问题 I have some sql that I want to pass into a mysql stored procedure. I'm using the json functions in mysql-json-udfs-0.4.0-labs-json-udfs-linux-glibc2.5-x86_64. We are running a mysql 5.5.4 server. Updating to 5.7.x is an option. When I run set @mapJSON = '[{"from":12,"to":0},{"from":11,"to":-1},{"from":1,"to":1}]' ; select json_extract(@mapJSON,'from') `from`,json_extract(@mapJSON,'to') `to` ; I am expecting from to 12 0 11 -1 1 1 I am getting from to {"from":12,"to":0} {"from":12,"to":0} The

BigQuery UDF Internal Error

元气小坏坏 提交于 2019-12-02 07:51:48
We had a simple UDF in BigQuery that somehow throws an error that keeps returning Query Failed Error: An internal error occurred and the request could not be completed. The query was simply trying to use UDF to perform a SHA256. SELECT input AS title, input_sha256 AS title_sha256 FROM SHA256( SELECT title AS input FROM [bigquery-public-data:hacker_news.stories] GROUP BY input ) LIMIT 1000 The in-line UDF is pasted below. However I can not post the full UDF as StackOverflow complaints too much code in the post. The full UDF can be seen this gist . function sha256(row, emit) { emit( { input: row

OPPO 数据中台之基石:基于 Flink SQL 构建实数据仓库

不问归期 提交于 2019-12-02 02:25:30
本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor。 本文主要内容如下: OPPO 实时数仓的演进思路; 基于 Flink SQL 的扩展工作; 构建实时数仓的应用案例; 未来工作的思考和展望。 一.OPPO 实时数仓的演进思路 1.1.OPPO 业务与数据规模 大家都知道 OPPO 是做智能手机的,但并不知道 OPPO 与互联网以及大数据有什么关系,下图概要介绍了 OPPO 的业务与数据情况: OPPO 作为手机厂商,基于 Android 定制了自己的 ColorOS 系统,当前日活跃用户超过 2 亿。围绕 ColorOS,OPPO 构建了很多互联网应用,比如应用商店、浏览器、信息流等。在运营这些互联网应用的过程中,OPPO 积累了大量的数据,上图右边是整体数据规模的演进:从 2012 年开始每年都是 2~3 倍的增长速度,截至目前总数据量已经超过 100PB,日增数据量超过 200TB。 要支撑这么大的一个数据量,OPPO 研发出一整套的数据系统与服务,并逐渐形成了自己的数据中台体系。 1.2.OPPO 数据中台 今年大家都在谈数据中台,OPPO 是如何理解数据中台的呢?我们把它分成了 4 个层次: 最下层是统一工具体系,涵盖了 "

Register UDF with descriptions of arguments using excel addin

£可爱£侵袭症+ 提交于 2019-12-01 20:11:47
I have an addin with an UDF getRegExResult . I want to add a function description and arguments descriptions to this function, so when user installs the addin, closes, opens excel few times and goes to "Insert Function" Dialog box he will be able to find the function with description of the arguments. The same is asked here . I found one answer that suits my needs. Except... I want to be able to do this through an Excel Addin. My idea is to put call into addin workbook_open event like so: Private Sub Workbook_Open() Call getRegExResultRegister End Sub Public Sub getRegExResultRegister()