Apache Flink

纪念1024程序员日,我来说说程序员的日常生活

冷暖自知 提交于 2020-11-21 23:53:14
作者简介: 目前就职于一线互联网公司,主要是从事大数据开发工作。 关注⬆️上方公众号,及时获取一线互联网技术资讯,想要联系作者,公众号有我的微信二维码。 我们的穿搭 我们的工作 我们如何对待老婆 喜欢报喜不报忧。 我们跟产品对需求,有一套方法论 这个需求有点问题 这个需求我也有点问题 这个需求很伤脑 集体懵逼 我们可能会受到多方的施压 但是我们都会有自己的原则去应对 靠技术语言,暗示对方承认错误。 通过舆论战术,旁敲侧击,告诉产品经理,注意少提需求。 我们有时候也会耍大牌 有时候梦想自己不用敲代码了 开始做项目,我们也会各种埋怨 线上任务排查异常时,也许会加班很久,但是你的队友明知道是他的bug,他还是不想承认,甩锅给你,然后事后悄悄告诉你。 社会上最关心的就是程序员身体状况 其实我们的工作很简单 最后总结 如果大家感觉文章好记得转发+右下角给个在看。 作者最近5篇精彩文章回顾 1. 最新中台架构PPT,一起欣赏6位互联网大佬的架构图 2. 京东高管一天处理四起离职,通过面谈都是95后,他们怎么了? 3. 2019软件大会精选阿里|头条|美团|闲鱼|B站等行业大佬架构图 4. 数据湖如何为企业带来9%的高增长?可否取代数据仓库? 5. Flink根据配置实时计算热门商品TopN 6. 想要月薪3万+,推荐给你9本书籍,买不起,我送你。 关注小晨说数据,获取更多大厂技术干货分享 回复

重磅发布!Flink Forward Asia 2020 在线峰会预约开启!

旧城冷巷雨未停 提交于 2020-11-19 14:06:47
当这个时代到来的时候,锐不可当。万物肆意生长,尘埃与曙光升腾,江河汇聚成川,无名山丘崛起为峰,天地一时无比开阔。 ——吴晓波《激荡三十年》 从结绳记事到量子计算, 从飞鸽传书到万物互联, 两岸风景日新月异, 人类文明的进程奔流不息。 我们见证了, 数据增长带来计算能力质的飞跃。 我们参与了, 技术发展重新定义产业的价值。 我们加速了, 数字时代转型升级的步伐。 数据连接世界, 算力编织梦想。 二者作为“新商业时代的原油”, 推进人类社会跨入愈发智慧的世界。 生生不息。 作为大数据领域的顶级盛会之一,Flink Forward 持续关注数据与算力的核心价值。12月13-15日, Flink Forward Asia 2020 在线峰会 如约而至,全球 38+ 一线厂商, 70+ 优质议题,即将重磅开启!大会议程已正式上线,点击 这里 即可免费预约~ 强大嘉宾阵容,让您满载而归 Flink Forward Asia 2020 邀请了15 位来自不同行业的顶级技术专家担任议题评审委员会委员,并由 阿里巴巴集团副总裁贾扬清 作为主席,共同参与大会议题的内容评选,保障大会内容生命线,他们分别是: 内容重磅升级,见证硬核算力 Flink Forward Asia 2020 大会内容重磅升级,除经典的行业最佳实践、Flink 核心技术解析、实时数仓、机器学习等主题外,开源生态内容更加丰富

TiDB 的现在和未来

∥☆過路亽.° 提交于 2020-11-19 14:04:28
本文根据黄东旭在 PingCAP D 轮融资线上发布会的演讲实录进行整理。 TiDB 的现在和未来 大家好,我是黄东旭,是 PingCAP 的联合创始人和 CTO,这是 PingCAP 成立以来的第一次发布会,我想跟大家简单聊聊 TiDB 在产品和技术上的更新。考虑到线上的很多观众不一定是有很强的技术背景,我将尽我所能将技术的部分说得让大家都能够理解。 在讲正题之前有一个小故事,我们做基础软件的产品经理去跟客户聊需求的时候,客户经常都会说:对于数据库,我的要求特别简单、特别基础、非常朴素,我不要求很多功能,安全稳定是必须的,最好能高可用,性能一定要好,如果数据量大了,能实现弹性伸缩就更好了;另外,最好别让我学太多新东西,用起来跟过去使用的产品差不多,这就是一款完美的数据库产品。 就像大家在家里用自来水一样,我们对自来水的需求就是拧开水龙头水就能出来,但是背后自来水厂是怎么处理的大家不用知道,我们只需要根据实际情况使用冷水或者热水就好。但是从技术的角度来说,刚才类似冷热水这个非常朴素的基础需求,类比一下放到数据库的世界这就是一个图灵奖级别的基础需求,稍微解释一下图灵奖是计算机行业学术界最顶级的,相当于计算机界的诺贝尔奖。 这里有两位行业泰斗级的人物,左边 Leslie Lamport 在 2013 年研究相关问题拿了图灵奖,右边这位跟我们挺有缘的,发型跟(我们的 CEO)刘奇同学挺像

Flink处理函数实战之一:深入了解ProcessFunction的状态(Flink-1.10)

自闭症网瘾萝莉.ら 提交于 2020-11-19 11:07:17
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等; 欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码): https://github.com/zq2599/blog_demos Flink处理函数实战系列链接 深入了解ProcessFunction的状态操作(Flink-1.10) ; ProcessFunction ; KeyedProcessFunction类 ; ProcessAllWindowFunction(窗口处理) ; CoProcessFunction(双流处理) ; 关于ProcessFunction状态的疑惑 学习Flink的ProcessFunction过程中,官方文档中涉及状态处理的时候,不止一次提到只适用于keyed stream的元素,如下图红框所示: 之前写过一些flink应用,keyed stream常用但不是必须用的,所以产生了疑问: 为何只有<font color="blue">keyed stream</font>的元素能读写状态? 每个key对应的状态是如何操作的? Flink的"状态" 先去回顾Flink"状态"的知识点: 官方文档说就两种状态:keyed

巨鲸任务调度平台

让人想犯罪 __ 提交于 2020-11-18 18:26:24
Big Whale 巨鲸任务调度平台为美柚大数据研发的分布式计算任务调度系统,提供Spark、Flink等批处理任务的DAG执行调度和流处理任务的状态监测调度,并具有重复应用检测、大内存应用检测等功能。 服务基于Spring Boot 2.0开发,打包后即可运行。 [Github] [Gitee] 部署 1.准备 Java 1.8+ Mysql 5.1.0+ 下载项目或git clone项目 为解决 github README.md 图片无法正常加载的问题,请在hosts文件中加入相关域名解析规则,参考: hosts 2.安装 创建数据库:big-whale 运行数据库脚本: big-whale.sql 根据Spring Boot环境,配置相关数据库账号密码,以及SMTP信息 配置: big-whale.properties 配置项说明 ssh.user: 拥有脚本执行权限的ssh远程登录用户名(平台会将该用户作为统一的脚本执行用户) ssh.password: ssh远程登录用户密码 dingding.enabled: 是否开启钉钉告警 dingding.watcher-token: 钉钉公共群机器人Token yarn.app-memory-threshold: Yarn应用内存上限(单位:MB),-1禁用检测 yarn.app-white-list: Yarn应用白名单列表

Flink 1.11 与 Hive 批流一体数仓实践

对着背影说爱祢 提交于 2020-11-18 17:47:41
导读:Flink 从 1.9.0 开始提供与 Hive 集成的功能,随着几个版本的迭代,在最新的 Flink 1.11 中,与 Hive 集成的功能进一步深化,并且开始尝试将流计算场景与Hive 进行整合。 本文主要分享在 Flink 1.11 中对接 Hive 的新特性,以及如何利用 Flink 对 Hive 数仓进行实时化改造,从而实现批流一体的目标。主要内容包括: · Flink 与 Hive 集成的背景介绍 · Flink 1.11中的新特性 · 打造 Hive 批流一体数仓 一、 Flink 与 Hive 集成背景 为什么要做 Flink 和 Hive 集成的功能呢?最早的初衷是我们希望挖掘 Flink 在批处理方面的能力。众所周知,Flink 在流计算方面已经是成功的引擎了,使用的用户也非常多。在 Flink 的设计理念当中,批计算是流处理中的一个特例。也就意味着,如果 Flink 在流计算方面做好,其实它的架构也能很好的支持批计算的场景。在批计算的场景中,SQL 是一个很重要的切入点。因为做数据分析的同学,他们更习惯使用SQL 进行开发,而不是去写 DataStream 或者 DataSet 这样的程序。 Hadoop 生态圈的 SQL 引擎,Hive 是一个事实上的标准。大部分的用户环境中都会使用到了 Hive 的一些功能,来搭建数仓。一些比较新的 SQL 的引擎

滴滴实时数仓逐层剖解:实时与离线数据误差<0.5%

 ̄綄美尐妖づ 提交于 2020-11-18 09:30:22
作者介绍 潘澄, 资深软件开发工程师。负责实时数据仓库建设,多年数据相关工作经验,专注数据建模、数据仓库、实时数据技术等领域。 朱峰, 高级软件开发工程师。主要从事实时数据仓库建设,专注实时和离线数仓技术,对数仓建模、数据研发和数仓中间层建设有一定的积累。 前言 随着滴滴业务的高速发展,业务对于数据时效性的需求越来越高,而伴随着实时技术的不断发展和成熟,滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子,从引擎侧、平台侧和业务侧各个不同方面,来阐述滴滴所做的工作,分享在建设过程中的经验。 一、实时数仓建设目的 随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。 其次从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数仓在这一过程中起到了不可替代的作用。 1 、解决传统数仓的问题 从目前数仓建设的现状来看,实时数仓是一个容易让人产生混淆的概念,根据传统经验分析,数仓有一个重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。但实时流处理技术,又是强调当前处理状态的一个技术

About云双11社区VIP、星球活动

别等时光非礼了梦想. 提交于 2020-11-14 17:01:03
社区VIP双11活动 名称:【About云社区VIP小程序】 【点击上面小程序即可下单】 About云会员VIP开通,免回复,不需要积分,即可获取About云分享书籍、文档、视频等资料 开通可加微信w3aboutyun。 开通后效果 星球双11活动 星球内每个主题(专题)都是非常系统的整理,内容皆来自一线工程师的需求或则问题。 星球介绍:1.为大家提供经典整理文章,书籍,文档,项目视频,思想指导,解答。2.帮助指导简历制作,推荐学习资料,找到工作【VIP与星球结合】。3.About云录制视频【独立】亦会放到星球,目前包括:Cloudera视频一套,Flink cep一套。星球的作用: 1.思想指导:提升你的IT能力 2.书籍【几百本】:丰富的技术内容,随取随用:扩展你的知识面 3.项目视频:帮助大家了解实战 4.问题解答:帮助大家解决工作中的难 来源: oschina 链接: https://my.oschina.net/u/4256554/blog/4717136

Flink + 强化学习搭建实时推荐系统

一曲冷凌霜 提交于 2020-11-13 11:47:05
简介: 如何根据用户反馈作出快速及时的实时推荐? 如今的推荐系统,对于实时性的要求越来越高,实时推荐的流程大致可以概括为:推荐系统对于用户的请求产生推荐,用户对推荐结果作出反馈 (购买/点击/离开等等),推荐系统再根据用户反馈作出新的推荐。这个过程中有两个值得关注的地方: 这可被视为是一个推荐系统和用户不断交互、互相影响的过程。 推荐系统需要对用户反馈作出快速及时的响应。 这两点本篇分别通过强化学习和 Flink 来实现,而在此之前先了解一些背景概念。 强化学习 强化学习领域的知名教材 《Reinforcement Learning: An Introduction》开篇就写道 : 当我们思考学习的本质的时候,脑中首先联想到的可能就是在与环境不断交互中学习。当一个婴儿在玩耍、挥舞手臂或是旁顾四周时,并没有任何老师教它,但它确实能直接感知到周围环境的变化。 强化学习的主要过程是构建一个智能体,使之在与环境交互的过程中不断学习,以期获得最大的期望奖励。它是一种非常通用的学习范式,可以用于对各种各样问题的建模,比如游戏、机器人、自动驾驶、人机交互、推荐、健康护理等等。其与监督学习的主要不同点在于:强化学习根据延迟的反馈通过不断试错 (trial-and-error) 进行学习,而监督学习则是每一步都有明确的反馈信息进行学习。 下图反映了一个推荐智能体 (recommender agent

如何从小白成长为 Apache Committer?

落花浮王杯 提交于 2020-11-10 06:45:54
我前面写过一系列关于参与开源项目和社区的文章,今天的这篇文章转载自Apache Flink 的 Committer 云邪的公众号,现身说法,为我们讲述 如何成长为一名Apache Committer 。 过去三年,我一直在为 Apache Flink 开源项目贡献,也在两年前成为了 Flink Committer。我在 Flink 社区成长的过程中受到过社区大神的很多指导,如今也有很多人在向我咨询如何能参与到开源社区中,如何能成为 Committer。这也是本文写作的初衷,希望能帮助更多人参与到开源社区中。 本文将以 Apache Flink 为例,介绍如何参与社区贡献,如何成为 Apache Committer。 我们先来了解下一个小白在 Apache 社区中的成长路线是什么样的。 Apache 社区的成长路线 Apache 软件基金会(Apache Software Foundation,ASF)在开源软件界大名鼎鼎。ASF 能保证旗下 200 多个项目的社区活动运转良好,得益于其独特的组织架构和良好的制度。 用户 (User): 通过使用社区的项目构建自己的业务架构的开发者都是Apache的用户。 贡献者 (Contributor): 帮助解答用户的问题,贡献代码或文档,在邮件列表中参与讨论设计和方案的都是 Contributor。 提交者 (Committer):