Apache Flink

战火重燃、奖金加码,TiDB Hackathon 2020 有你才精彩

守給你的承諾、 提交于 2020-12-16 12:09:52
TiDB Hackathon 是由 TiDB 社区主办,专属于全球开发者与技术爱好者的顶级挑战赛事,通过开发与应用实战,鼓励开发者基于 TiDB 及上下游生态项目实现技术与商业创新。 自 2017 年创办以来,TiDB Hackathon 在过去的三年连获好评,吸引了全球 800+ 技术爱好者参与,先后诞生了 Unified Threat Pool、TiDB-wasm、TiDB 跨数据中心解决方案等一些列高质量项目,已经成为全球数据库技术领域的知名赛事。 本届大赛主题为「∞」,参赛项目可围绕 TiDB 组件或结合 TiDB 生态周边(包括:TiKV、ChaosMesh®、Backup & Restore(BR)、TiDB Data Migration(DM)、Dashboard、Flink、ES 等上下游社区、用户&企业业务场景等)进行创作,用最硬核的技术和最炸裂的创意去创造无限可能。 赛事亮点 奖金加码: 除了金额丰厚的一二三等奖,本次大赛还将联合赞助商推出特别奖,以及增设最佳人气奖,欢迎小伙伴们围观 Demo 现场投出你心中最佳的项目。 全球联动: 去年北上广三地联动 Demo 的场景还历历在目,今年 TiDB 将更进一步,联动全球开发者共享代码狂欢。 项目落地: 通过 TOC(Technical Oversight Committee) 投票表决的优秀项目将在大赛结束后进入

怎么做数据可视化大屏?从设计到上线,一般用这3类工具

狂风中的少年 提交于 2020-12-16 04:27:26
数据可视化大屏成为了这两年很火爆的一个需求。 一方面,不少甲方都想做这么酷炫的大屏,用于公司展厅、日常经营监控,还有些特殊行业如交通、运输、工厂制造,会做更高级的3D建模等。 另一方面,市面上可提供做大屏的技术、工具和厂商层出不穷,似乎能和数据搭上边的都能做大屏。 大屏真的像一些文章说的神乎其技吗,真的那么低门槛零成本? 如果是这样,我作为一个做技术,尤其是做了十几个大屏项目实施,也不会秃头了...... 先来说说几个误区。 误区一:网上看到的绝大部分大屏都是效果图 效果图和实际图最大的区别就是效果图都是静态的,实际实施时需要适配屏幕分辨率,比如字体能否自适应大小。一些动态展示如3D旋转以及图表空间和数据刷新的速率也无法看见,基本上实际图做出来会和效果图差那么一两成。 再者啊,这个效果图很多在线网站,图表插件都可以直接设计出,像我们在做项目前也需要美工帮出几版效果图,所以你无法通过效果图来判别厂商的专业度尤其是实施能力。 误区二:认为大屏仅是前端技术?NO! 数据从哪里来,是读业务数据库还是建立中间库,数据更新的频率要求是什么,数据质量有无问题还要先做底层数据处理? 硬件方面,需要明确大屏的尺寸、种类、驱动大屏的主机? 业务方面,大屏展示什么指标和维度,业务分析逻辑谁来支撑? 这些都是要考虑的。 误区三:大屏成本低,零代码实现?NO! 据我所知,一个大屏项目十几万是常有的事

Flink 消息聚合处理方案

可紊 提交于 2020-12-12 13:54:08
微博机器学习平台使用 Flink 实时处理用户行为日志和生成标签,并且在生成标签后写入存储系统。 为了降低存储系统的 IO 负载,有批量写入的需求,同时对数据延迟也需要进行一定的控制,因此需要一种有效的消息聚合处理方案。 在本篇文章中我们将详细介绍 Flink 中对消息进行聚合处理的方案,描述不同方案中可能遇到的问题和解决方法,并进行对比。 基于 flatMap 的解决方案 这是我们能够想到最直观的解决方案,即在自定义的 flatMap 方法中对消息进行聚合,伪代码如下: 对应的作业拓扑和运行状态如下: 该方案的优点如下: 逻辑简单直观,各并发间负载均匀。 flatMap 可以和上游算子 chain 到一起,减少网络传输开销。 使用 operator state 完成 checkpoint,支持正常和改并发恢复。 与此同时,由于使用 operator state,因此所有数据都保存在 JVM 堆上,当数据量较大时有 GC/OOM 风险。 使用 Count Window 的解决方案 对于大规模 state 数据,Flink 推荐使用 RocksDB backend,并且只支持在 KeyedStream 上使用。与此同时,KeyedStream 支持通过 Count Window 来实现消息聚合,因此 Count Window 成为第二个可选方案。 由于需要使用 KeyedStream

Flink 消息聚合处理方案

时间秒杀一切 提交于 2020-12-12 13:53:53
微博机器学习平台使用 Flink 实时处理用户行为日志和生成标签,并且在生成标签后写入存储系统。 为了降低存储系统的 IO 负载,有批量写入的需求,同时对数据延迟也需要进行一定的控制,因此需要一种有效的消息聚合处理方案。 在本篇文章中我们将详细介绍 Flink 中对消息进行聚合处理的方案,描述不同方案中可能遇到的问题和解决方法,并进行对比。 基于 flatMap 的解决方案 这是我们能够想到最直观的解决方案,即在自定义的 flatMap 方法中对消息进行聚合,伪代码如下: 对应的作业拓扑和运行状态如下: 该方案的优点如下: 逻辑简单直观,各并发间负载均匀。 flatMap 可以和上游算子 chain 到一起,减少网络传输开销。 使用 operator state 完成 checkpoint,支持正常和改并发恢复。 与此同时,由于使用 operator state,因此所有数据都保存在 JVM 堆上,当数据量较大时有 GC/OOM 风险。 使用 Count Window 的解决方案 对于大规模 state 数据,Flink 推荐使用 RocksDB backend,并且只支持在 KeyedStream 上使用。与此同时,KeyedStream 支持通过 Count Window 来实现消息聚合,因此 Count Window 成为第二个可选方案。 由于需要使用 KeyedStream

Flink 消息聚合处理方案

醉酒当歌 提交于 2020-12-12 13:32:31
微博机器学习平台使用 Flink 实时处理用户行为日志和生成标签,并且在生成标签后写入存储系统。为了降低存储系统的 IO 负载,有批量写入的需求,同时对数据延迟也需要进行一定的控制,因此需要一种有效的消息聚合处理方案。 在本篇文章中我们将详细介绍 Flink 中对消息进行聚合处理的方案,描述不同方案中可能遇到的问题和解决方法,并进行对比。 基于 flatMap 的解决方案 这是我们能够想到最直观的解决方案,即在自定义的 flatMap 方法中对消息进行聚合,伪代码如下: 对应的作业拓扑和运行状态如下: 该方案的优点如下: 逻辑简单直观,各并发间负载均匀。 flatMap 可以和上游算子 chain 到一起,减少网络传输开销。 使用 operator state 完成 checkpoint,支持正常和改并发恢复。 与此同时,由于使用 operator state,因此所有数据都保存在 JVM 堆上,当数据量较大时有 GC/OOM 风险。 使用 Count Window 的解决方案 对于大规模 state 数据,Flink 推荐使用 RocksDB backend,并且只支持在 KeyedStream 上使用。与此同时,KeyedStream 支持通过 Count Window 来实现消息聚合,因此 Count Window 成为第二个可选方案。 由于需要使用 KeyedStream

28岁华为员工工资表曝光,牛逼的人注定会牛逼

二次信任 提交于 2020-12-12 00:41:48
前两天,一位前华为的朋友,在他的朋友圈晒出了他一年前,在华为工作时候的工资表。 同样20来岁的年纪,为什么人家可以年入百万,一个项目奖金就比得上别人一年的工资? 需要知道,在职场中越往上走,拼得越不是技术,而是能力。 华为始终贯彻“以项目为中心”,项目管理能力被认为是华为的最核心竞争力。在华为,有能力做好项目的员工自然收入更高。 事实上不只华为,几乎所有行业,都稀缺独当一面的项目管理人才。 据新华社报道:到2027年,中国的项目管理职位空缺将达到 4600万 。 如果现在, 仅需0.01元 ,清华资深项目管理名师,手把手带你入门, 每年多赚20万 ,你来不来? 立即加入—— PMP项目管理训练营 18节项目管理课+1场项目规划直播课 3场干货分享+5天社群服务 原价399元 现在仅需0.01元 长按下方二维码 先人一步抢名额 ▼ (不用发朋友圈,不用集赞,直接听课) 你能收获 1.理论与实操相结合,无缝对接工作场景,学完就能用 清华名师 手把手教学,0基础也能学会,轻松解决工作难题。 2.收获一项受用终身的项目管理知识体系 从全局角度思考问题,从 项目的启动到收尾 规范流程,过程更清晰。 3.超过90%同龄人,多一个年薪百万的职业选择 为什么学习项目管理 除了 薪资高 、 人才缺口巨大 之外, 项目管理的 应用 不受行业限制 ,是有效整合资源、高效实现目标的一套管理方法和知识体系。

Hologres是如何完美支撑双11智能客服实时数仓的?

时光毁灭记忆、已成空白 提交于 2020-12-04 16:43:33
简介: 本文重点介绍Hologres如何帮助阿里巴巴客户体验部(CCO),构建集实时化、自助化、系统化于一体的用户体验实时数仓,完美助力双11场景,支持上千+服务大屏,削峰30%,节约成本近30%。 刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologres)+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地,为大数据平台创下一项新纪录。借此之际,我们将陆续推出云原生实时数仓双11实战系列内容,本文重点介绍Hologres如何帮助阿里巴巴客户体验部(CCO),构建集实时化、自助化、系统化于一体的用户体验实时数仓,完美助力双11场景,支持上千+服务大屏,削峰30%,节约成本近30%。 作者:映海(任海峰),阿里巴巴CCO数据应用中台实时技术负责人 客户简介 CCO是Chief Customer Officer的缩写,也是阿里巴巴集团客户体验事业部的简称 。在阿里巴巴经济体内,CCO是“客户第一”价值观落地的组织保障,是整个经济体客户体验的神经网络,也是触达消费者和商家的最前线。“成为新商业的服务生态摇篮”,“让体验成为商业的核心竞争力”是我们的愿景。凭借着为消费者、商家和经济体提供专业服务的小二,为平台不断挖掘存量客户价值的体验运营专家,为业务发展提供底层支撑的数据、产品和技术人才,我们成为了互联网行业独一无二的数字化服务体验团队 ——

Hologres是如何完美支撑双11智能客服实时数仓的?

自闭症网瘾萝莉.ら 提交于 2020-12-04 16:43:15
简介: 本文重点介绍Hologres如何帮助阿里巴巴客户体验部(CCO),构建集实时化、自助化、系统化于一体的用户体验实时数仓,完美助力双11场景,支持上千+服务大屏,削峰30%,节约成本近30%。 刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologres)+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地,为大数据平台创下一项新纪录。借此之际,我们将陆续推出云原生实时数仓双11实战系列内容,本文重点介绍Hologres如何帮助阿里巴巴客户体验部(CCO),构建集实时化、自助化、系统化于一体的用户体验实时数仓,完美助力双11场景,支持上千+服务大屏,削峰30%,节约成本近30%。 作者:映海(任海峰),阿里巴巴CCO数据应用中台实时技术负责人 客户简介 CCO是Chief Customer Officer的缩写,也是阿里巴巴集团客户体验事业部的简称 。在阿里巴巴经济体内,CCO是“客户第一”价值观落地的组织保障,是整个经济体客户体验的神经网络,也是触达消费者和商家的最前线。“成为新商业的服务生态摇篮”,“让体验成为商业的核心竞争力”是我们的愿景。凭借着为消费者、商家和经济体提供专业服务的小二,为平台不断挖掘存量客户价值的体验运营专家,为业务发展提供底层支撑的数据、产品和技术人才,我们成为了互联网行业独一无二的数字化服务体验团队 ——

Hologres 助力AliExpress双11实时数仓升级

僤鯓⒐⒋嵵緔 提交于 2020-12-04 15:50:28
概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(Hologres)+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地,为大数据平台创下一项新纪录。借此之际,我们将陆续推出云原生实时数仓双11实战系列内容,本篇将重点介绍Hologres在阿里巴巴AliExpress的最佳实践,并助力AliExpress实时数仓升级,节约成本近50%,提效300%。 AliExpress中文名是全球速卖通,是阿里巴巴面向国际市场打造的跨境电商平台,被广大卖家称为“国际版淘宝",在2020年全球疫情肆虐的大背景下迎来了自己的10周年,伴随业务全球市场的拓展,AliExpress也同样遇到了大多数电商都会遇到的问题:流量红利逐步消失、拉新成本飞速上升以及引流效率的逐渐疲软等。业务发展需要从原始的野蛮生长逐步转向流量的精细化运营,于是帮助业务看清站内流量的分发及承接效率的流量通道也就应运而生了。 关于电商平台元素的解析有大家比较熟悉的“人、货、场”分法,人和货相对好理解,场可以理解为消费者和商品之间创建特殊链接的产品形式,如搜索、推荐、店铺、猜你喜欢等,流量通道便是以更加结构化的方式描述平台元素之间的关系,实现更好研究不同场域流量效率的目的。 在仅持续48小时(国际11不同于国内,持续2天)的双11大促过程中,数据更新的频率直接决定了业务做决策的频次