udf | 易学教程

用26个字母讲清数据人必须知道的SQL概念

阅读更多关于用26个字母讲清数据人必须知道的SQL概念

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！数据从业者必须知道的SQL概念（A-Z）作为数据从业者，大家用的最多的应该就是SQL语言了，那么除了日常的select，你还了解哪些SQL相关的概念呢？今天就按照字母表的顺序(A-Z)来给大家简单介绍一下数据人必须知道的SQL概念大全。 A：Alias 别名，包含表的别名和列的别名。在哪些场景下我们需要用到别名呢？通常是多表join的时候表名过长，多次引用书写比较麻烦的时候我们会给表起一个别名；另外就是表join的时候，如果多个表中有重复的列名而且我们都需要提取出来的时候也需要别名；再则就是列级的别名，通常我们是给表中的列取一个“有意义” 的名字的联合as一起使用。例子如下： select st.id as st_id,sc.id as sc_id --列级别名 from student st --表级别名 left join score sc --表级别名 on st.id=st.id B：Begin Transaction 开始事务操作，SQL里面的事务是是一个操作序列，也就是一次执行的最小单位。一次执行，同一个事务里面的操作要么全部执行要么全部不执行，不存在部分执行部分未执行的可能。依赖事务，我们在数据库里面的部分误操作才有机会被回滚（恢复到本次事务执行之前的状态）。如

重磅！Apache Flink 1.11 功能前瞻抢先看！

阅读更多关于重磅！Apache Flink 1.11 功能前瞻抢先看！

整理 | 高赟、程鹤群 Review | 王治江 Flink 1.11 版本即将正式宣告发布！为满足大家的好奇与期待，我们邀请 Flink 核心开发者对 1.11 版本的功能特性进行解读与分享。Flink 1.11 在 1.10 的基础上对许多方面进行了完善和改进，并致力于进一步提高 Flink 的可用性及性能。本文将详细介绍 1.11 版本的新功能、改进、重要变化及未来的发展计划。更多信息可以参考相应的 FLIP 或 Jira 页面，并关注我们后续的专题直播。集群部署与资源管理在集群部署方面 1.[FLIP-85] Flink 支持 Application Mode 目前 Flink 是通过一个单独的客户端来创建 JobGraph 并提交作业的，在实际使用时，会产生下载作业 jar 包占用客户端机器大量带宽、需要启动单独进程（占用不受管理的资源）作为客户端等问题。为了解决这些问题，在 Flink-1.11 中提供了一种新的 Application 模式，它将 JobGraph 的生成以及作业的提交转移到 Master 节点进行。用户可以通过 bin/flink run-application 来使用 application 模式。目前 Application 模式支持 Yarn 和 K8s 的部署方式，Yarn Application

Apache Spark+PyTorch 案例实战

阅读更多关于 Apache Spark+PyTorch 案例实战

Apache Spark+PyTorch 案例实战随着数据量和复杂性的不断增长，深度学习是提供大数据预测分析解决方案的理想方法，需要增加计算处理能力和更先进的图形处理器。通过深度学习，能够利用非结构化数据（例如图像、文本和语音），应用到图像识别、自动翻译、自然语言处理等领域。图像分类：识别和分类图像，便于排序和更准确的搜索。目标检测：快速的目标检测使自动驾驶汽车和人脸识别成为现实。自然语言处理：准确理解口语，为语音到文本和智能家居提供动力。深度学习面临的挑战：虽然大数据和人工智能提供了大量的潜力，但从大数据中提取可操作的洞察力并不是一项普通的任务。隐藏在非结构化数据（图像、声音、文本等）中的大量快速增长的信息，需要先进技术的发展和跨学科团队（数据工程、数据科学和业务）的密切合作。基于Databricks云平台能够轻松构建、训练和部署深度学习应用程序。 Databricks云平台集群提供一个交互式环境，可以轻松地使用深度学习的框架，如Tensorflow、Keras、Pytorch、Mxnet、Caffe、Cntk和Theano。 Databricks提供处理数据准备、模型训练和大规模预测的云集群平台。 Spark分布式计算进行性能优化，可以在强大的GPU硬件上大规模运行。交互式数据科学。Databricks云平台支持多种编程语言，支持实时数据集的深度学习模型训练。目录

Flink Sql教程（8）

阅读更多关于 Flink Sql教程（8）

Flink精准去重概述为啥需要去重在某些情况下，由于上游的作业不是端到端的exactly-once，在上游出现问题自动failover的时候，该任务的sink端很大可能出现重复数据；这些重复数据又会影响下游的聚合作业（如SUM，COUNT）。所以，我们的作业需要去重完再进行计算去重方法 TopN（Flink官网推荐的方式） Group By UDTF（维表去重）各自优缺点前两者纯内存去重，效率高，速度快，使用简单；但是一旦任务KILL再启动就会有状态丢失，那么下游计算过的数据又会计算一次；同样，因为使用到STATE，那么就要配置合理的STATE TTL，不然STATE会越来越大，对checkPoint会有影响第三个的问题在于需要用户手写UDTF，难度较高（写UDTF可以参考 Flink UDF ）；其次状态保存在存储中间件中，查询和插入都是同步操作，效率较低，受网络和中间件的影响比较大；最后，如果上游发生撤回流，无法撤回中间件中的数据，会导致数据被错误过滤；也有优点：任务重启之后，不会影响下游数据的准确性。下面我们开始依次看看怎么用的 TopN 语法： SELECT [ column_list ] FROM ( SELECT [ column_list ] , ROW_NUMBER ( ) OVER ( [ PARTITION BY col1 [ , col2 .

Mysql UDF提权方法

阅读更多关于 Mysql UDF提权方法

0x01 UDF UDF（user defined function）用户自定义函数，是mysql的一个拓展接口。用户可以通过自定义函数实现在mysql中无法方便实现的功能，其添加的新函数都可以在sql语句中调用，就像调用本机函数一样。 0x02 windows下udf提权的条件如果mysql版本大于5.1，udf.dll文件必须放置在mysql安装目录的lib\plugin文件夹下/ 如果mysql版本小于5.1， udf.dll文件在windows server 2003下放置于c:\windows\system32目录，在windows server 2000下放置在c:\winnt\system32目录。掌握mysql数据库的账户，从拥有对mysql的insert和delete权限，以创建和抛弃函数。拥有可以将udf.dll写入相应目录的权限。 0x03 提权方法如果是mysql5.1及以上版本，必须要把udf.dll文件放到mysql安装目录的lib\plugin文件夹下才能创建自定义函数。该目录默认是不存在的，需要使用webshell找到mysql的安装目录，并在安装目录下创建lib\plugin文件夹，然后将udf.dll文件导出到该目录。在sqlmap中可以导入udf 复制到新建目录 create function sys_eval returns

Hive自定义UDF基于华为云MRS平台解析ip地址

阅读更多关于 Hive自定义UDF基于华为云MRS平台解析ip地址

大数据离线数仓的分析，必不可少的就是根据业务需求去解析字段，工作需要定义了解析ip的udf,希望可以给大家一些启发创建maven工程，添加依赖我这边用到的一个是hive 一个ipip的依赖 pom文件如下由于集群环境有hive，所以打包时不带进去，用provided方式实现 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.0-mrs-2.0</version> <scope>provided</scope> </dependency> <dependency> <groupId>net.ipip</groupId> <artifactId>ipdb</artifactId> <version>1.1.3</version> </dependency> 由于需要去华为云下载sdk 添加 <repositories> <repository> <id>huaweicloudsdk</id> <url>https://mirrors.huaweicloud.com/repository/maven/huaweicloudsdk/</url> <releases><enabled>true</enabled></releases>

大数据篇：数据仓库案例

阅读更多关于大数据篇：数据仓库案例

离线数据仓库数据仓库（Data WareHouse）是为企业所有决策制定过程，提供所有系统数据支持的战略集合通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制、成本、提高产品质量等数据仓库，并不是数据最终目的地，而是为数据最终的目的地做好准备：清洗、转义、分类、重组、合并、拆分、统计等等 1 项目简介 1.1 项目需求用户行为数据采集平台搭建业务数据采集平台搭建数据仓库维度建模分析：用户、流量、会员、商品、销售、地区、活动等主题采用即席查询工具，随时进行指标分析对集群性能进行监控，发生异常需要报警元数据管理质量监控 1.2 技术选型数据采集功能如何技术选型采集框架名称主要功能 Sqoop 大数据平台和关系型数据库的导入导出 Datax 大数据平台和关系型数据库的导入导出 flume 擅长日志数据的采集和解析 logstash 擅长日志数据的采集和解析 maxwell 常用作实时解析mysql的binlog数据 canal 常用作实时解析mysql的binlog数据 waterDrop 数据导入导出工具消息中间件的技术选型开源MQ 概述 RabbitMQ LShift 用Erlang实现，支持多协议，broker架构，重量级 ZeroMQ AMQP最初设计者iMatix公司实现，轻量消息内核，无broker设计。C++实现 Kafka

Spark中的DataFrame，字段为Array类型，getas出错的问题

阅读更多关于 Spark中的DataFrame，字段为Array类型，getas出错的问题

打开getas的源码，找到下面一段 /** * Returns the value at position i of array type as a Scala Seq. * * @throws ClassCastException when data type does not match. */ def getSeq[T](i: Int): Seq[T] = getAs[Seq[T]](i) 看上去是支持Seq类型的意思。于是用udf和map把array转化成Seq，ok，能正常取出了。来源： oschina 链接： https://my.oschina.net/u/2000675/blog/4298392

Flink简介

阅读更多关于 Flink简介

参考文章： Flink编程 1. 认知flink Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算 2. 主要特点 2.1 事件驱动型(Event-driven) 事件驱动型应用是一类具有状态的应用,从一个或多个事件流提取数据,根据到来的事件触发计算,状态更新或其他外部动作, 典型的是kafka类的消息队列, SparkStreaming微批次：事件驱动型： 2.2 观象 =>流&批批处理有界、持久、大量，非常适合需要访问全套记录才能完成的计算工作，一般用于离线统计。流处理无界、实时, 无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作，一般用于实时统计。 spark中一切是批处理,离线数据是一个大批次，而实时数据是由一个一个无限的小批次组成的。 flink中一切都是由流组成的，离线数据是有界限的流，实时数据是一个没有界限的流，这就是所谓的有界流和无界流。 2.3 有界&无界无界数据流无界数据流有一个开始但是没有结束，它们不会在生成时终止并提供数据，必须连续处理无界流，也就是说必须在获取后立即处理event。对于无界数据流我们无法等待所有数据都到达，因为输入是无界的，并且在任何时间点都不会完成。处理无界数据通常要求以特定顺序（例如事件发生的顺序）获取event，以便能够推断结果完整性。有界数据流

MYSQL-innodb性能优化几个点

阅读更多关于 MYSQL-innodb性能优化几个点

MYSQL-innodb 性能优化几个点数据库常用参数 MYSQL 数据库的参数配置一般在 my.ini 配置（部分参数也可以用 set global 参数名 = 值做临时调整，重启后失效），配置完后需要重启数据库才生效。参数 1 ： slow_query_log = 0|1 说明 : 开关慢查询日志。 slow_query_log_file = 为存放路径； long_query_time = 记录超过的时间，默认为 10s 。参数 2 ： join_buffer_size = MB 说明： join buffer 存放基于每 thread 的连接表信息，连接时，只需访问 join buffer , 不需要再去有并发机制保护的 cache. 参数 3 ： Sort_Buffer_Size = MB 说明 : Sort_Buffer_Size 是一个 connection 级参数，每个 connection 第一次需要使用这个 buffer 的时候，一次性分配设置的内存。 Sort_Buffer_Size 并不是越大越好，由于是 connection 级的参数，过大的设置 + 高并发可能会耗尽系统内存资源。官网文档说 “On Linux, there are thresholds of 256KB and 2MB where larger values may

订阅 udf