Apache Flink | 易学教程

Alink漫谈(八) : 二分类评估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何实现

阅读更多关于 Alink漫谈(八) : 二分类评估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何实现

Alink漫谈(八) : 二分类评估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何实现目录 Alink漫谈(八) : 二分类评估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何实现 0x00 摘要 0x01 相关概念 0x02 示例代码 2.1 主要思路 0x03 批处理 3.1 EvalBinaryClassBatchOp 3.2 BaseEvalClassBatchOp 3.2.0 调用关系综述 3.2.1 calLabelPredDetailLocal 3.2.1.1 flatMap 3.2.1.2 reduceGroup 3.2.1.3 mapPartition 3.2.2 ReduceBaseMetrics 3.2.3 SaveDataAsParams 3.2.4 计算混淆矩阵 3.2.4.1 原始矩阵 3.2.4.2 计算标签 3.2.4.3 具体代码 0x04 流处理 4.1 示例 4.1.1 主类 4.1.2 TimeMemSourceStreamOp 4.1.3 Source 4.2 BaseEvalClassStreamOp 4.2.1 PredDetailLabel 4.2.2 AllDataMerge 4.2.3 SaveDataStream 4.2.4 Union 4.2.4.1

Spark Packages寻宝（一）：简单易用的数据准备工具Optimus

阅读更多关于 Spark Packages寻宝（一）：简单易用的数据准备工具Optimus

作者：李呈祥，花名司麟，阿里云智能EMR团队高级技术专家，Apache Hive Committer， Apache Flink Committer，目前主要专注于EMR产品中开源计算引擎的优化工作。 Spark社区在 Spark Packages 网站中索引了许多第三方库，这些第三方库由不同的开发者贡献，作为Spark生态圈的一部分，扩充了Spark的使用范围和使用场景，其中很多对于我们日常的使用可能有帮助，我们准备开启一个系列文章介绍Spark Packages中一些有意思的第三方库，作为系列的第一篇，本文主要介绍Optimus，一个基于PySpark的简单易用的数据准备工具。本文的部分内容源自Optimus官网和相关介绍文章，原文链接参考文末引用部分。在Spark（Pyspark）的支持下，Optimus允许用户使用自己的或一组来源： oschina 链接： https://my.oschina.net/u/4324558/blog/4310289

直播倒计时！Flink 1.11 除了流批一体，还有哪些重要变更？

阅读更多关于直播倒计时！Flink 1.11 除了流批一体，还有哪些重要变更？

6月14日，计算平台事业部与阿里云开发者社区联合举办的首期大数据+AI Meetup即将重磅开启，来自阿里、Databricks、快手、网易云音乐的国内外多位技术专家齐聚一堂，与你探讨大数据及 AI 领域的热门话题！ Meetup 精华看点 Flink 1.11、Spark 3.0、Alink 1.1.1 等大数据热门开源软件核心开发者帮你圈出最新版本重点实时数仓、数据湖、HSAP 架构能干啥一次讲清楚更有一线生产环境实战，春晚快手项目、网易云音乐 Flink + Kafka 落地实践的独家宝贵经验分享全场超豪华嘉宾阵容，直播间已准备多种精美礼品，现场送送送如何观看时间：6月14日 10:00 — 18:00 直播预约链接： https://developer.aliyun.com/live/2894?spm=a2c6h.12873587 来源： oschina 链接： https://my.oschina.net/u/4382640/blog/4308957

周末直播|Flink、Hologres、AI等热门话题全都安排！

阅读更多关于周末直播|Flink、Hologres、AI等热门话题全都安排！

flink实战 —— 定时器实现已完成订单自动五星好评

阅读更多关于 flink实战 —— 定时器实现已完成订单自动五星好评

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！背景需求在电商领域会有这么一个场景，如果用户买了商品，在订单完成之后，24小时之内没有做出评价，系统自动给与五星好评，我们今天主要使用flink的定时器来简单实现这一功能。案例详解自定义source 首先我们还是通过自定义source来模拟生成一些订单数据。在这里，我们生了一个最简单的二元组Tuple2,包含订单id和订单完成时间两个字段。 public static class MySource implements SourceFunction<Tuple2<String,Long>>{ private volatile boolean isRunning = true; @Override public void run(SourceContext<Tuple2<String,Long>> ctx) throws Exception{ while (isRunning){ Thread.sleep(1000); //订单id String orderid = UUID.randomUUID().toString(); //订单完成时间 long orderFinishTime = System.currentTimeMillis(); ctx.collect

用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

阅读更多关于用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

本章我们开始正式搭建大数据环境，目标是构建一个稳定的可以运维监控的大数据环境。我们将采用Ambari搭建底层的Hadoop环境，使用原生的方式搭建Flink，Druid，Superset等实时计算环境。使用大数据构建工具与原生安装相结合的方式，共同完成大数据环境的安装。 Ambari搭建底层大数据环境 Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。 Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是顶级的hadoop管理工具之一。目前Ambari的版本已经更新到2.7，支持的组件也越来越丰富。 Hadoop的发行版本有很多，有华为发行版，Intel发行版，Cloudera发行版（CDH），MapR版本,以及HortonWorks版本等。所有发行版都是基于Apache Hadoop衍生出来的，产生这些版本的原因，是由于Apache Hadoop的开源协议决定的：任何人可以对其进行修改，并作为开源或商业产品发布和销售。收费版本：收费版本一般都会由新的特性

什么是实时计算增加交换机？

阅读更多关于什么是实时计算增加交换机？

云栖号快速入门：【点击查看更多云产品快速入门】不知道怎么入门？这里分分钟解决新手入门等基础问题，可快速完成产品配置操作！本文为您介绍如何增加交换机，解决集群IP数量不足等问题。操作步骤 1.登录实时计算统一控制台。 2.单击 Flink全托管页签。 3.单击对应工作空间操作列下的其他 > 增加交换机。 4.选中新增的交换机。 5.单击确认。本文来自阿里云文档中心实时计算增加交换机【云栖号在线课堂】每天都有产品技术专家分享！课程地址： https://yqh.aliyun.com/zhibo 立即加入社群，与专家面对面，及时了解课程最新动态！【云栖号在线课堂社群】 https://c.tb.cn/F3.Z8gvnK 来源： oschina 链接： https://my.oschina.net/u/4418236/blog/4333308

用Python进行实时计算——PyFlink快速入门

阅读更多关于用Python进行实时计算——PyFlink快速入门

Flink 1.9.0及更高版本支持Python，也就是PyFlink。在最新版本的Flink 1.10中，PyFlink支持Python用户定义的函数，使您能够在Table API和SQL中注册和使用这些函数。但是，听完所有这些后，您可能仍然想知道PyFlink的架构到底是什么？作为PyFlink的快速指南，本文将回答这些问题。为什么需要PyFlink？ Python上的Flink和Flink上的Python 那么，PyFlink到底是什么？顾名思义，PyFlink就是Apache Flink与Python的组合，或者说是Python上的Flink。但是Flink on Python是什么意思？首先，两者的结合意味着您可以在Python中使用Flink的所有功能。而且，更重要的是，PyFlink还允许您在Flink上使用Python广泛的生态系统的计算功能，从而可以进一步促进其生态系统的开发。换句话说，这对双方都是双赢。如果您更深入地研究这个主题，您会发现Flink框架和Python语言的集成绝不是巧合。 Python和大数据生态系统 python语言与大数据紧密相连。为了理解这一点，我们可以看一下人们正在使用Python解决的一些实际问题。一项用户调查显示，大多数人都在使用Python进行数据分析和机器学习应用程序。对于此类情况，大数据空间中还解决了一些理想的解决方案

英文自我介绍

阅读更多关于英文自我介绍

Hello ! My name is Leo, I’m very happy and excited for having a face to face interview in your company. I hope i can make a good performance today. Now I would like to introduce myself briefly. I am 29 years old, born in Guangdong province, graduated from the south university of china. My major is Software engineering, and I got my bachelor degree after my graduation in the year of 2014. I have about 5 years work experiences. At present, I worked for my company as a big data develop engineer. Responsible for the selection of big data technologies, including off-line, real-time and machine

知乎 Hive Metastore 实践：从 MySQL 到 TiDB

阅读更多关于知乎 Hive Metastore 实践：从 MySQL 到 TiDB

作者介绍：胡梦宇，知乎数据架构平台开发工程师背景 Apache Hive 是基于 Apache Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并且提供了 Hive SQL 进行查询和分析，在离线数仓中被广泛使用。 Hive Metastore 是 Hive 的元信息管理工具，它提供了操作元数据的一系列接口，其后端存储一般选用关系型数据库如 Derby、 MySQL 等。现在很多除了 Hive 之外计算框架都支持以 Hive Metastore 为元数据中心来查询底层 Hadoop 生态的数据，比如 Presto、Spark、Flink 等等。在知乎，我们是将元信息存储在 MySQL 内的，随着业务数据的不断增长，MySQL 内已经出现单表数据量两千多万的情况，当用户的任务出现 Metastore 密集操作的情况时，往往会出现缓慢甚至超时的现象，极大影响了任务的稳定性。长此以往，MySQL 在未来的某一天一定会不堪重负，因此优化 Hive 的元数据库势在必行。在去年，我们做过数据治理，Hive 表生命周期管理，定期去删除元数据，期望能够减少 MySQL 的数据量，缓解元数据库的压力。但是经过实践，发现该方案有以下缺点：数据的增长远比删除的要快，治标不治本；在删除超大分区表（分区数上百万）的分区时，会对 MySQL 造成一定的压力，只能单线程去做

订阅 Apache Flink