Apache Flink

基于云原生的大数据实时分析方案实践

拜拜、爱过 提交于 2020-12-03 14:31:51
1 方案介绍 大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求。但数据量的爆发式增长,对数据处理能力提出了更大的挑战,同时对时效性也提出了更高的要求。实时分析已成为企业大数据分析中最关键的术语,这意味企业可将所有数据用于大数据实时分析,实现在数据接受同时即刻为企业生成分析报告,从而在第一时间作出市场判断与决策。典型的场景如电商大促和金融风控等,基于延迟数据的分析结果已经失去了价值。另外随着云原生时代的到来,云原生天生具有的高效部署、敏捷迭代、云计算资源成本和弹性扩展等优势,正在加速和缩短业务系统落地过程。云原生同样可助力大数据这一过程。 本文主要介绍如何利用 Kubernetes 实现云原生大数据实时分析平台。 2 总体架构 Data Streams:基于 Kafka 的数据流接入方案 Data Computations:基于 Spark Streaming 与 Flink 的流计算方案 Data Pipeline:基于 TKDF(Tencent Kubernetes Data Flow) 的数据工作流方案 Data Store:基于 Iceberg 与 HDFS 的数据湖方案 Data Interactive Analysis:基于 Spark SQL 与 Presto 的 SQL 交互式分析方案 Data Intelligence:基于

玩物得志:效率为王!如何构建大数据平台?

空扰寡人 提交于 2020-12-03 11:34:30
2018 年底,玩物得志从 0 开始,搭建技术团队,技术架构快速经历了服务化、平台化等转变。 为了支撑业务的快速发展,玩物得志极少自己造轮子,会大量采用云平台提供的 SaaS、PaaS 服务。比如大数据体系是在阿里云 DataWorks + MaxCompute 框架体系上建设起来。使用了其核心存储、计算等组件,上层的可视化以及业务查询部分,在使用过程中也会有大量的定制化需求,玩物得志在开源方案的基础上进行了一些二次开发。 之所以直接选择云产品搭建研发系统 ,张淼认为对于快速迭代的初创型企业来说,一切效率为王。 如果选择自己去搭建整个链路和基础设施,很难有现在这么快的发展速度。 早期,玩物的数据量比较小,所有业务数据都放在一个大的数据DB 的实例里,所以当时读库或者用订阅binlog方式打造一个分析库,就可以完成日常报表输出工作。跑SQL就足够了,这是数据体量小的时候通用的一个方案。当时没有大数据的概念,都是在Mysql上跑sql脚本,出数据报表,定期给到运营,这就是玩物得志早期的基本的架构。 从玩物得志APP 正式运转起来大概四五个月的时间,电商业务发展很快。2019年,每个月都是指数性增长,然后就发现Mysql查数据查不动了。我们就开始探索新的解决方案来帮助我们实现大数据平台的建设。之前我们更多是业务数据,比较简单,放在DB 里。在我们接入了埋点后,就要去拿日志

Flink的特点以及优势

雨燕双飞 提交于 2020-12-02 16:03:47
Flink的优势 、数据量&吞吐量&延迟性 Flink 的流处理引擎只需要很少配置就能实现高吞吐率和低延迟。 2、支持 Event Time 和乱序事件 Flink 支持了流处理和 Event Time 语义的窗口机制。 Event time 使得计算乱序到达的事件或可能延迟到达的事件更加简单。 3、状态计算的 exactly-once 语义 流程序可以在计算过程中维护自定义状态。 Flink 的 checkpointing 机制保证了即时在故障发生下也能保障状态的 exactly once 语义。 4、高度灵活的流式窗口 Flink 支持在时间窗口,统计窗口,session 窗口,以及数据驱动的窗口 窗口可以通过灵活的触发条件来定制,以支持复杂的流计算模式。 5、带反压的连续流模型 数据流应用执行的是不间断的(常驻)operators。 Flink streaming 在运行时有着天然的流控:慢的数据 sink 节点会反压(backpressure)快的数据源(sources)。 6、容错性 Flink 的容错机制是基于 Chandy-Lamport distributed snapshots 来实现的。 这种机制是非常轻量级的,允许系统拥有高吞吐率的同时还能提供强一致性的保障。 7、Batch 和 Streaming 一个系统流处理和批处理共用一个引擎 Flink

实时数据仓及实时平台架构详解

泄露秘密 提交于 2020-11-29 00:43:06
随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。此外,随着 5G 技术的成熟、广泛应用, 对于工业互联网、物联网等数据时效性要求非常高的行业,企业就更需要一套完整成熟的实时数据体系来提高自身的行业竞争力。 本文从上述现状及实时数据需求出发,结合工业界案例、笔者的实时数据开发经验, 梳理总结了实时数据体系建设的总体方案,本文主要分为三个部分: 第一部分主要介绍了当下在工业界比较火热的实时计算引擎 Flink 在实时数据体系建设过程中主要的应用场景及对应解决方案; 第二部分从实时数据体系架构、实时数据模型分层、实时数据体系建设方式、流批一体实时数据架构发展等四个方面思考了实时数据体系的建设方案; 第三部分则以一个具体案例介绍如何使用 Flink SQL 完成实时数据统计类需求。 一、Flink 实时应用场景 目前看来,Flink 在实时计算领域内的主要应用场景主要可分为四类场景, 分别是实时数据同步、流式 ETL、实时数据分析和复杂事件处理,具体的业务场景和对应的解决方案可详细研究下图, 文字层面不再详述。 二、实时数据体系架构 实时数据体系大致分为三类场景:流量类、业务类和特征类,这三种场景各有不同。 在数据模型上,流量类是扁平化的宽表

【大数据】开学季当当计算机图书大促

谁说胖子不能爱 提交于 2020-11-27 09:03:51
开学季 当当网计算机图书大促 >> 每满100减50 << 满200减100 满300减150 满400减200 不止如此!秉持绝不让大家多花一分钱的精神 机械工业出版社华章公司 联合 大数据技术与架构 特别送出一批优惠码 “实付满200减40” 可以和满减活动 叠加 使用 优惠码使用后相当于 花160买400的书! 超低门槛!超大力度!快快上车! 优惠码: ZCARNK (长按复制) 使用渠道:当当小程序或当当APP 有效期: 8月24日至9月6日 使用方法: 步骤一 , 长按下面二维码 , 直达专题, 挑选图 书至购物车,点击结算 步骤二 ,点击“ 优惠券/码处 ” 步骤三 ,输入优惠码 ZCARNK (注意要大写) 适用范围:全场当当自营图书(教材、考试类除外) 选书太纠结?推荐几本必买的好书新书 助你囤的疯狂、读的畅快,绝不后悔! 推荐书单 01 《Flink原理、实战与性能优化》 推荐语: 这是一部以实战为导向,能指导读者零基础掌握Flink并快速完成进阶的著作,从功能、原理、实战和调优等4个维度循序渐进地讲解了如何利用Flink进行分布式流式应用开发。 02 《数据挖掘与数据化运营实战:思路、方法、技巧与应用》 推荐语: 阿里巴巴BI部门数据分析专家卢辉多年数据挖掘应用实践经验结晶,以大案例展现了数据挖掘与数据化运营的商业实践。 03 《企业级大数据平台构建:架构与实现

2020大数据面试题真题总结(附答案)

怎甘沉沦 提交于 2020-11-24 15:57:03
版本 更新时间 更新内容 v1.0 2020-07-01 新建 v1.1 2020-06-13 朋友面试大数据工程师提供的关于架构及数仓方面的题目 v1.2 2020-08-08 朋友面试数据专家提供的数据驱动,spark及flink方面面试题 v1.3 2020-08-22 朋友面试数据开发提供的关于hive及数仓方面的题目 一.Hadoop 1.hdfs写流程 2.hdfs读流程 3.hdfs的体系结构 4.一个datanode 宕机,怎么一个流程恢复 5.hadoop 的 namenode 宕机,怎么解决 6.namenode对元数据的管理 7.元数据的checkpoint 8.yarn资源调度流程 9.hadoop中combiner和partition的作用 10.用mapreduce怎么处理数据倾斜问题? 11.shuffle 阶段,你怎么理解的 12.Mapreduce 的 map 数量 和 reduce 数量是由什么决定的 ,怎么配置 13.MapReduce优化经验 14.分别举例什么情况要使用 combiner,什么情况不使用? 15.MR运行流程解析 16.简单描述一下HDFS的系统架构,怎么保证数据安全? 17.在通过客户端向hdfs中写数据的时候,如果某一台机器宕机了,会怎么处理 18.Hadoop优化有哪些方面 19.大量数据求topN

1024程序员节!

余生颓废 提交于 2020-11-24 00:00:19
程序员之歌 在那山的那边海的那边有一群程序猿 他们老实又腼腆 他们聪明又有钱 他们一天到晚坐在那里认真地改bug 他们饿了就吃一口方便面 噢~ 可爱的程序员~ 可爱的程序员~ 只要一提需求他们就要重新改一遍 可是时间只剩下最后一天 当这首歌声响起的时候 10.24到了 猿媛专属节日来了 在这个节日 拒绝On Call 24小时 告别debug 是时候在各路需求bug中忙里偷闲 收割一波专供程序员“充电”的惊喜了 薅当当网羊毛的机会又双叒叕来了! 1024程序员节,当当百万自营图书 >> 每满100减50 << >> 每满200减100 << >> 每满300减150 << >> 满400减200 << 以为只有这样了么?我们的原则是——让大家省钱省到家! 机械工业出版社 联合当当网特意为【 机器学习与生成对抗网络 】用户申请了一批 可与满减叠加使用的 「满200减40”」 的图书优惠码,优惠码使用后相当于: 花160元买400元的书! 用160块就可以买到原价400元(大约四五本)的硬核技术书, 4折优惠! 所以这一波优惠,不要错过! 优惠码: 【 EQHTMX 】 (注意区分大小写,建议点击选中复制) 使用时间: 2020年10月20日至11月03日 使用渠道: 当当APP和当当小程序 使用条件 :原有的满减核算后,得出的实际消费金额总价如果超过200元即可以用优惠码再减40。

欢迎添加博主微信,期待与你一起交流

*爱你&永不变心* 提交于 2020-11-23 21:42:05
你不可能从现在预测到未来,只有回头看时,才会发现事物之间的联系。所以你必须相信,那些生命中的点点滴滴,将会在你未来的生命里以某种方式串联起来。你必须相信一些东西---你的勇气、宿命、生活、因缘、随便什么,它们将给你追寻内心真正所想的自信,带你走出平凡,变得与众不同。 -- From乔布斯在斯坦福毕业典礼上的演讲 从今年3月份开通公众号,到现在已经更新了 50 +篇原创文章。虽然平时工作很忙,但是也会抽出时间每周发1~2篇原创分享文章。目前的文章主要集中在大数据技术方面(如:Spark、Flink、Hive、Kafka、ClickHouse等),后期会分享一些工作的点滴和读书感悟。 由于新申请的公众号不具备留言功能,很多粉丝会通过后台私信的方式联系我,有时候会不能及时回复(公众号私信超过48小时,不能给对方发消息)。大家可以添加我的微信: xibei_2011 ,平时有什么事情可以给我发消息,有时间我会一一回复,期待与你一起交流。 扫描二维码添加我微信 期待与你一起交流 往期文章回顾 基于Canal与Flink实现数据实时增量同步(一) CDH集群之YARN性能调优 Flink运行架构剖析 Flink的状态后端(StateBackends) 基于Canal与Flink实现数据实时增量同步(二) Flink的八种分区策略源码解读 经典Hive-SQL面试题 Flink1

TIOBE 编程语言排行榜 7 月更新已公布,Python是否是炒作起来的?

南楼画角 提交于 2020-11-23 09:52:57
TIOBE 编程语言排行榜 7 月更新已公布,排名前十的分别是:Java, C, Python, C++, C#, Visual Basic .NET, JavaScript, PHP, SQL 和汇编语言。 和上个月的不同之处主要是 C# 以微弱的优势超过了 Visual Basic .NET 的排名,再次进入 TOP 5。 与上个月相比,Python 的指数又增加了不少,由 8.530% 上升到 9.260%。我们注意到,TIOBE 对这期榜单的标题描述是“Perl is one of the victims of Python's hype”,意思是说 Perl 成为了过度炒作 Python 的受害者之一。python 是否过度的炒作? 首先,不否认python是门很棒的语言,语法简洁。功能强大。而且上手容易。最早流行于数据分析、科学计算等研究领域。因为其非常易用好用。在spark,flink,storm 等大数据组件中,以及其他数据处理框架中,都可以快速编写脚本处理数据。在爬虫领域更是所向披靡。 未来大数据在各个领域都是扮演着基础支撑的角色。没有大数据支撑人工智能也无从谈起。所以这就给了一个可以炒作的点,特别是IT培训班,因为python毕竟不难学。把这个炒作起来了,不少人在原来行业混的不好就可以给培训班送钱了。很多培训班开大数据班事实上挂羊头卖狗肉

附43页PPT下载|腾讯云ClickHouse性能调优及实践

泄露秘密 提交于 2020-11-22 14:46:37
01 PDF下载 识别 下方二 维码 ,回复“ 小晨003 ”,即可下载。感觉干货多,记得 设为 星标 哦 02 PPT预览 本文分享自微信公众号 - 小晨说数据(flink-spark)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4658124/blog/4667195