第一天:什么是Flink、WordCount入门、Flink安装、并行度
1. 初识 Flink 在当前数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产 的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎 Apache Spark ,基本上已经取代了 MapReduce 成为当前大数据处理的标准。但 对实时数据处理来说,Apache Spark 的 Spark-Streaming 还有性能改进的空间。对于 Spark-Streaming 的 流计算本质上还是批(微批)计算 ,Apache Flink 就是近年来在开源社区不断发展的技术中的能够同时支持 高吞吐 、 低延迟 、 高性能 的纯实时的分布式处理框架(主要贡献者是阿里,QPS可达30W+)。 Flink 是什么 1. Flink 的发展历史 在 2010 年至 2014 年间,由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合发 起名为 Stratosphere:Information Management on the Cloud 研究项目,该项目在当时的社区逐渐具有了一定的社区知名度。 2014 年 4 月,Stratosphere 代码被贡献给 Apache 软件基金会,成为 Apache 基金会孵化器项目。初期参与该项目的核心成员均是 Stratosphere 曾经的核心成员,之后团队的大部分创始成员离开学校,共同创办了一家名叫