Apache Flink

Flink 源码解析 —— TaskManager 处理 SubmitJob 的过程

耗尽温柔 提交于 2019-11-26 17:04:17
TaskManager 处理 SubmitJob 的过程 <!--more--> https://t.zsxq.com/eu7mQZj 博客 1、 Flink 从0到1学习 —— Apache Flink 介绍 2、 Flink 从0到1学习 —— Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门 3、 Flink 从0到1学习 —— Flink 配置文件详解 4、 Flink 从0到1学习 —— Data Source 介绍 5、 Flink 从0到1学习 —— 如何自定义 Data Source ? 6、 Flink 从0到1学习 —— Data Sink 介绍 7、 Flink 从0到1学习 —— 如何自定义 Data Sink ? 8、 Flink 从0到1学习 —— Flink Data transformation(转换) 9、 Flink 从0到1学习 —— 介绍 Flink 中的 Stream Windows 10、 Flink 从0到1学习 —— Flink 中的几种 Time 详解 11、 Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 ElasticSearch 12、 Flink 从0到1学习 —— Flink 项目如何运行? 13、 Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到

《从0到1学习Flink》目录

余生颓废 提交于 2019-11-26 17:04:03
1、 《从0到1学习Flink》—— Apache Flink 介绍 2、 《从0到1学习Flink》—— Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门 3、 《从0到1学习Flink》—— Flink 配置文件详解 4、 《从0到1学习Flink》—— Data Source 介绍 5、 《从0到1学习Flink》—— 如何自定义 Data Source ? 6、 《从0到1学习Flink》—— Data Sink 介绍 7、 《从0到1学习Flink》—— 如何自定义 Data Sink ? 8、 《从0到1学习Flink》—— Flink Data transformation(转换) 9、 《从0到1学习Flink》—— 介绍Flink中的Stream Windows 10、 《从0到1学习Flink》—— Flink 中的几种 Time 详解 11、 《从0到1学习Flink》—— Flink 写入数据到 ElasticSearch 12、 《从0到1学习Flink》—— Flink 项目如何运行? 13、 《从0到1学习Flink》—— Flink 写入数据到 Kafka 14、 《从0到1学习Flink》—— Flink JobManager 高可用性配置 15、 《从0到1学习Flink》—— Flink parallelism 和 Slot

个人服务容器化和基础监控容器化

喜夏-厌秋 提交于 2019-11-26 10:17:55
1.前景 自己比较喜欢玩机器,目前手上有4台常用的机器如下,平常跑一些自己写的小程序还有博客和代理都在上面。 1 1核1G 2 1核2G 3 1核1G 4 2核4G 每次拿到一台新的vps环境安装就是个大问题,上学的时候那会都是完全手动敲命令装,jdk maven Nginx git Python3各种麻烦,尤其是机器格式化了重装很累,后来学着写自动化shell脚本,每次拿到新机器直接上去运行脚本等待安装,但是脚本编写麻烦维护更麻烦,并且软件直接运行在vpn上很容易污染机器。 最近这些年最热的一个词就是容器化,所以我也抽双11结束的时间实现了自己服务“小集群”的容器化。 2. 容器化方案 容器选择最常用的docker,对于容器的管理和编排有三种方案,Kubernetes, Mesos, Swarm 这三种我都在本地的VM上跑过,在工作中接触最多的是k8s, 我曾经尝试过在上述几台机器上搭建一个k8s集群,但后来放弃了,机器配置确实太低,并且结合我目前的使用场景来看,更需要一种轻量级的容器管理方案。 最后可以使用简单的webui管理docker就可以,经过了解有两款还不错的工具,shipyard和portainer。 Github地址如下: shipyard: https://github.com/shipyard/shipyard portainer: https://github

Flink入门(一)——Apache Flink介绍

心不动则不痛 提交于 2019-11-26 09:32:37
Apache Flink是什么? ​ 在当代数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。随着雅虎对hadoop的开源,越来越多的大数据处理技术开始涌入人们的视线,例如目前比较流行的大数据处理引擎Apache Spark,基本上已经取代了MapReduce成为当前大数据处理的标准。但是随着数据的不断增长,新技术的不断发展,人们逐渐意识到对实时数据处理的重要性。相对于传统的数据处理模式,流式数据处理有着更高的处理效率和成本控制能力。Flink 就是近年来在开源社区不断发展的技术中的能够同时支持 高吞吐、低延迟、高性能 的分布式处理框架。 数据架构的演变 如图所示,传统的单体数据架构最大的特点便是 集中式数据存储,大多数将架构分为计算层和存储层。 单体架构的初期效率很高,但是随着时间的推移,业务越来越多,系统逐渐变得很大,越来越难以维护和升级,数据库是唯一的准确数据源,每个应用都需要访问数据库来获取对应的数据,如果数据库发生改变或者出现问题,则将对整个业务系统产生影响。 后来随着微服务架构的出现,企业开始采用微服务作为企业业务系统的架构体系。微服务架构的核心思想是:一个应用是由多个小的、相互独立的微服务组成,这些服务运行在自己的进程中,开发和发布都没有依赖。不同的服务能依据不同的业务需求

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

久未见 提交于 2019-11-25 17:01:50
Flink-Storm 是 Flink 官方提供的用于 Flink 兼容 Storm 程序 beta 工具,并且在 Release 1.8 之后去掉相关代码。本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm 实现真实场景下大规模 Storm 任务平滑迁移 Flink。 背景 58 实时计算平台旨在为集团业务部门提供稳定高效实时计算服务,主要基于 Storm 和 Spark Streaming 构建,但在使用过程中也面临一些问题,主要包括 Storm 在吞吐量不足以及多集群带来运维问题,Spark Streaming 又无法满足低延迟的要求。Apache Flink 开源之后,其在架构设计、计算性能和稳定性上体现出的优势,使我们决定采用 Flink 作为新一代实时计算平台的计算引擎。同时基于 Flink 开发了一站式高性能实时计算平台 Wstream,支持 Flink jar,Stream Sql,Flink-Storm 等多样化任务构建方式。 在完善 Flink 平台建设的同时,我们也启动 Storm 任务迁移 Flink 计划,旨在提升实时计算平台整体效率,减少机器成本和运维成本。 Storm vs Flink 尽管 Flink 作为高性能计算引擎可以很好兼容 Storm,但在业务迁移过程中,我们仍然遇到了一些问题: 1 .用户对