udf

Spark 3.0.0正式版发布,开发近两年新增了哪些特性?

喜夏-厌秋 提交于 2020-08-15 07:34:37
原计划在2019年年底发布的 Apache Spark 3.0.0 赶在下周二举办的 Spark Summit AI 会议之前正式发布了! Apache Spark 3.0.0 自2018年10月02日开发到目前已经经历了近21个月! 这个版本的发布经历了两个预览版以及三次投票: 2019年11月06日第一次预览版,参见Preview release of Spark 3.0; 2019年12月23日第二次预览版,参见Preview release of Spark 3.0; 2020年03月21日 [VOTE] Apache Spark 3.0.0 RC1; 2020年05月18日 [VOTE] Apache Spark 3.0 RC2; 2020年06月06日 [vote] Apache Spark 3.0 RC3。 Apache Spark 3.0 增加了很多令人兴奋的新特性,包括: 动态分区修剪(Dynamic Partition Pruning); 自适应查询执行(Adaptive Query Execution); 加速器感知调度(Accelerator-aware Scheduling); 支持 Catalog 的数据源API(Data Source API with Catalog Supports); SparkR 中的向量化(Vectorization in

真正让你明白Hive调优系列3:笛卡尔乘积,小表join大表,Mapjoin等问题

≡放荡痞女 提交于 2020-08-14 03:17:13
0.Hive中的优化分类 真正想要掌握Hive的优化,要熟悉相关的MapReduce,Yarn,hdfs底层源码,明晰Hive的底层执行流程。真正让你明白Hive调优系列,会征对下面分类逐一分析演示。 大类1:参数优化 文件输入前看是否需要map前合并小文件 控制map个数,根据实际需求确认每个map的数据处理量,split的参数等 Map输出是否需要启动压缩,减少网络传输,OOM处理等 控制redcue个数,控制每个reduce的吞吐量,OOM处理等 是否将common-join转换成map-join处理策略 文件输出是否需要启动小文件合并策略 其他相关参数的配置:如严格模式,JVM重用,列剪切等 大类2:开发中优化 数据倾斜,这个是Hive优化的重头戏。出现的原因是因为出现了数据的重新分发和分布,启动了redcue。Hive中数据倾斜分类:group by ,count(distinct)以及join产生的数据倾斜(当然一些窗口函数中用了partition by一会造成数据倾斜) j oin相关的优化 :分类大表join大表,小表join大表的优化 代码细节优化分类 : 比如去重用group by替代distinct ; 多表关联,先进行子查询后再进行关联 ;表关联时一定要在子查询里过滤掉NULL值,避免数据倾斜; 不要对一个表进行重复处理,多使用临时表

阿里云 MaxCompute 2020-7 月刊

本秂侑毒 提交于 2020-08-13 13:49:13
2020年8月5日 “MaxCompute企业级安全新能力发布”,解读SaaS模式云数据仓库MaxCompute数据的持续保护。 了解发布详情>> 【7月新发布功能】 1.MaxCompute使用包年包月计算资源作业支持优先级功能 MaxCompute支持作业优先级的功能可以更合理分配使用包年包月计算资源,给高优先级业务加一道保障。 适用客户 适用于MaxCompute使用包年包月计算资源的用户。 发布功能 使用MaxCompute包年包月计算资源时,资源池为独享同时也是有限的,而业务优先级不同,对应的任务也有不同优先级,当任务都处在资源等待状态时,通过优先级功能,可以让优先级高的任务优先获取到资源执行,从而更合理分配使用有限的计算资源。 此功能同时支持关联DataWorks调度任务基线优先级,若通过DataWorks使用MaxCompute,且有调度任务,可以根据业务划分调度任务优先级,当调度任务发起MaxCompute job时,对应的优先级会传到MaxCompute转化成MaxCompute的优先级。 开启使用优先级功能前,务必要先梳理好各任务/流程优先级,避免滥用高优先级从而达不到预定的效果。 查看文档 >> 2.MaxCompute管家支持对包年包月配额组分时管理 MaxCompute管家支持对包年包月配额组分时管理,满足对不同工作负载能力的项目时段进行资源隔离

阿里云 MaxCompute 2020-7 月刊

让人想犯罪 __ 提交于 2020-08-13 13:48:02
2020年8月5日 “MaxCompute企业级安全新能力发布”,解读SaaS模式云数据仓库MaxCompute数据的持续保护。 了解发布详情>> 【7月新发布功能】 1.MaxCompute使用包年包月计算资源作业支持优先级功能 MaxCompute支持作业优先级的功能可以更合理分配使用包年包月计算资源,给高优先级业务加一道保障。 适用客户 适用于MaxCompute使用包年包月计算资源的用户。 发布功能 使用MaxCompute包年包月计算资源时,资源池为独享同时也是有限的,而业务优先级不同,对应的任务也有不同优先级,当任务都处在资源等待状态时,通过优先级功能,可以让优先级高的任务优先获取到资源执行,从而更合理分配使用有限的计算资源。 此功能同时支持关联DataWorks调度任务基线优先级,若通过DataWorks使用MaxCompute,且有调度任务,可以根据业务划分调度任务优先级,当调度任务发起MaxCompute job时,对应的优先级会传到MaxCompute转化成MaxCompute的优先级。 开启使用优先级功能前,务必要先梳理好各任务/流程优先级,避免滥用高优先级从而达不到预定的效果。 查看文档 >> 2.MaxCompute管家支持对包年包月配额组分时管理 MaxCompute管家支持对包年包月配额组分时管理,满足对不同工作负载能力的项目时段进行资源隔离

hive常见自定义函数

喜欢而已 提交于 2020-08-11 13:57:49
  hive常见自定义函数先来讲一下hive自定义函数 1.1 为什么需要自定义函数 hive的内置函数满足不了所有的业务需求。hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。 1.2 常见自定义函数有哪些 .UDF:用户自定义函数,user defined function。一对一的输入输出。(最常用的)。 .UDTF:用户自定义表生成函数。user defined table-generate function.一对多的输入输出。lateral view explode .UDAF:用户自定义聚合函数。user defined aggregate function。多对一的输入输出 count sum max。 2 自定义函数实现 2.1 UDF格式 先在工程下新建一个pom.xml,加入以下maven的依赖包 请查看code/pom.xml 定义UDF函数要注意下面几点: .继承org.apache.hadoop.hive.ql.exec.UDF .重写evaluate(),这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF,看能否找到和函数调用相匹配的evaluate()方法 2.1.1 自定义函数第一个案例 public class FirstUDF extends UDF { public

半小时,将你的Spark SQL模型变为在线服务

限于喜欢 提交于 2020-08-11 09:38:32
SparkSQL在机器学习场景中应用 第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用 SparkSQL在特征变换主要有一下几类 多表场景,用于表之间拼接操作,比如交易信息表去拼接账户表 使用udf进行简单的特征变换,比如对时间戳进行hour函数处理 使用时间窗口和udaf进行时序类特征处理,比如计算一个人最近1天的消费金额总和 SparkSQL到目前为止,解决很好的解决离线模型训练特征变换问题,但是随着AI应用的发展,大家对模型的期望不再只是得出离线调研效果,而是在真实的业务场景发挥出价值,而真实的业务场景是模型应用场景,它需要高性能,需要实时推理,这时候我们就会遇到以下问题 多表数据离线到在线怎么映射,即批量训练过程中输入很多表,到在线环境这些表该以什么形式存在,这点也会影响整个系统架构,做得好能够提升效率,做得不好就会大大增加模型产生业务价值的成本 SQL转换成实时执行成本高,因为在线推理需要高性能,而数据科学家可能做出成千上万个特征,每个特征都人肉转换,会大大增加的工程成本 离线特征和在线特征保持一致困难,手动转换就会导致一致性能,而且往往很难一致 离线效果很棒但是在线效果无法满足业务需求 在具体的反欺诈场景,模型应用要求tp99

沃尔玛的产品知识图谱

那年仲夏 提交于 2020-08-11 04:02:07
作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍 电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴(销售商、供应商、品牌)提供的数据往往不完整,有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范(一种发送产品数据的约定格式),但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外,互联网上还有许多非结构化数据,如产品手册、产品评论、博客、社交媒体网站等。 沃尔玛正致力于构建一个零售图谱(Retail Graph),捕捉有关产品及其相关实体的知识,以帮助我们的客户更好地发现产品。它是一个产品知识图谱,可以在零售环境中回答有关产品和相关知识的问题,可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。 沃尔玛的零售图谱是什么 零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象,例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种:抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题,而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别,替代品和补充品(附件、兼容产品等)。它还试图将抽象概念

Hive实现自增列的两种方法

a 夏天 提交于 2020-08-10 09:14:27
多维数据仓库中的维度表和事实表一般都需要有一个代理键,作为这些表的主键,代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列,但它也有一些对自增序列的支持,通常有两种方法生成代理键:使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数(UDF)。 用row_number()函数生成代理键 INSERT OVERWRITE TABLE my_hive_table select row_number() over ( order by create_time asc ) as id, key from my_mid_table 用UDFRowSequence生成代理键 add jar viewfs: // hadoop - meituan / user / hadoop - data / user_upload / weichao05_hive - contrib - 3.1 . 0 .jar; create temporary function row_sequence as ' org.apache.hadoop.hive.contrib.udf.UDFRowSequence ' ; INSERT OVERWRITE TABLE my_test_table select row_sequence() as id, key

Mysql UDF提权方法

一个人想着一个人 提交于 2020-08-08 15:04:19
0x01 UDF UDF(user defined function)用户自定义函数,是mysql的一个拓展接口。用户可以通过自定义函数实现在mysql中无法方便实现的功能,其添加的新函数都可以在sql语句中调用,就像调用本机函数一样。 0x02 windows下udf提权的条件 如果mysql版本大于5.1,udf.dll文件必须放置在mysql安装目录的lib\plugin文件夹下/ 如果mysql版本小于5.1, udf.dll文件在windows server 2003下放置于c:\windows\system32目录,在windows server 2000下放置在c:\winnt\system32目录。 掌握mysql数据库的账户,从拥有对mysql的insert和delete权限,以创建和抛弃函数。 拥有可以将udf.dll写入相应目录的权限。 0x03 提权方法 如果是mysql5.1及以上版本,必须要把udf.dll文件放到mysql安装目录的lib\plugin文件夹下才能创建自定义函数。该目录默认是不存在的,需要使用webshell找到mysql的安装目录,并在安装目录下创建lib\plugin文件夹,然后将udf.dll文件导出到该目录。 在sqlmap中可以导入udf 复制到新建目录 create function sys_eval returns

沃尔玛的产品知识图谱

若如初见. 提交于 2020-08-08 07:25:17
作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍 电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴(销售商、供应商、品牌)提供的数据往往不完整,有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范(一种发送产品数据的约定格式),但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外,互联网上还有许多非结构化数据,如产品手册、产品评论、博客、社交媒体网站等。 沃尔玛正致力于构建一个零售图谱(Retail Graph),捕捉有关产品及其相关实体的知识,以帮助我们的客户更好地发现产品。它是一个产品知识图谱,可以在零售环境中回答有关产品和相关知识的问题,可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。 沃尔玛的零售图谱是什么 零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象,例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种:抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题,而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别,替代品和补充品(附件、兼容产品等)。它还试图将抽象概念