Apache Flink | 易学教程

敖丙8年经验读者，疫情期间面20家大厂总结

阅读更多关于敖丙8年经验读者，疫情期间面20家大厂总结

本文来自一个8年大数据老兵的面试经历投稿，我完完整整的看了一遍，真的很细很细，疫情期间面试各种失败各种总结，最后拿到Offer实属不易，精神很值得大家学习前言我不是什么大牛，我只是一个有八年工作经验的互联网老兵，既没有非常亮眼的学历，也没有牛逼大厂的履历。这个冬天，在孩子得病从急诊转住院的时候，我得到了年前将被优化的消息，作为家里唯一经济来源的我整个人蒙了，一时间茫然和无助差点毁了我。最后我还是和家人如实说了，受到了他们的极大的鼓励，也找到了重新开始的勇气。可惜这场疫情来的如此凶猛，职位少、要求高、电话面试、视频面试、在线coding、屡战屡败、屡败屡战，构成了我这两个月的常规生活。我一开始也焦虑、茫然，甚至对自己的能力和工作经验深深怀疑。后来经过几个好朋友的鼓励打气，也看了敖丙的很多面试文章，认真总结自己面试中不足的地方，查漏补缺，终于在这周确定了offer。（这是原话，我真没瞎加哈哈）接下来我就我之前面过的腾讯、高德、京东、美团、饿了么、快手、字节跳动、滴滴、360金融、跟谁学、网联清算、华晨宝马、快看漫画、陌陌、脉脉等等等公司的面试题做一下总结，权当抛砖引玉，希望对大家有帮忙。面试问题汇总基础问题 linux和网络基础（1）linux系统内核态和用户态是什么，有什么区别？（2）BIO、NIO、AIO都是什么，有什么区别？（3）TCP和UDP的区别？

大数据Hadoop生态圈介绍

阅读更多关于大数据Hadoop生态圈介绍

一.Hadoop简介 Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同，各种组件相继出现，丰富Hadoop生态圈，目前生态圈结构大致如图所示：二.Hadoop生态圈组件介绍 1.HDFS（分布式文件系统） HDFS是整个hadoop体系的基础，负责数据的存储与管理。HDFS有着高容错性（fault-tolerant）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。 client：切分文件，访问HDFS时，首先与NameNode交互，获取目标文件的位置信息，然后与DataNode交互，读写数据 NameNode：master节点，每个HDFS集群只有一个，管理HDFS的名称空间和数据块映射信息，配置相关副本信息，处理客户端请求。 DataNode：slave节点，存储实际数据，并汇报状态信息给NameNode，默认一个文件会备份3份在不同的DataNode中，实现高可靠性和容错性。

【2020-10-28】加油打工人

阅读更多关于【2020-10-28】加油打工人

我的大学普通二本，电子信息工程专业，没的说，学不到啥东西，考试真的很水，一学期不听课，期末复习都能考个七八十，运气好还能上9，比起辛辛苦苦听课也考九十几得我来说不值一提。培训班千万别去，他只是一个监督你学习的地方，你连自己都监督不了，怎么可能学的好呢？做了两年竞赛，省一二三都拿过，你要是找专业对口的工作还有点用。大三觉得自己专业没出路，自己学了java、mysql、大数据框架（hadoop、hive、flume、hbase、spark、flink），大数据这东西还挺吃香，但是你没有实际的项目经验，做的网上的小玩意，工作还是很难找的，不过你要是深入了解并且懂了，那么你就是大佬。大四上做了毕设，下学期去实习了。其他同学考研、考公、找工作的、还有去当兵的。真想念那些日子，即使在实习，也每周五坐夜车回去学校跟他们一起看LPL，那时候还没有轻轨，做的大巴，一躺就要一个半小时，顺便在车上给爸妈打电话。杭漂人今年刚毕业，普通二本，很后悔当初没有考研，直到找工作跟你谈薪资的时候，看到是普通本科的，直接给你刷掉2-3K，很现实的一个东西。有两段实习经历，去年十月份开始的，到现在有一年多的工作经验了，第一次实习坎坎坷坷，做的是数据仓库的东西，应为是实习生，干的都是一些体力活，偶尔加一点脑力的，所以做了两个多月，就走人了，也没学到啥东西。第二段实习，就是我现在做的工作

Flink基于Kafka-Connector 数据流容错回放机制

阅读更多关于 Flink基于Kafka-Connector 数据流容错回放机制

Flink基于Kafka-Connector 数据流容错回放机制及代码案例实战-Flink牛刀小试 Flink牛刀小试系列目录 Flink牛刀小试-Flink 集群运行原理兼部署及Yarn运行模式深入剖析 Flink牛刀小试-Flink Window类型及使用原理案例实战 Flink牛刀小试-Flink Broadcast 与 Accumulators 应用案例实战 Flink牛刀小试-Flink与SparkStreaming之Counters& Accumulators 累加器双向应用案例实战 Flink牛刀小试-Flink分布式缓存Distributed Cache应用案例实战 Flink牛刀小试-Flink状态管理与checkPoint数据容错机制深入剖析 Flink牛刀小试-Flink Window分析及Watermark解决乱序数据机制深入剖析 Flink牛刀小试-Flink Restart Strategies 重启策略机制深入剖析 Flink牛刀小试-Flink CheckPoint状态点恢复与savePoint机制对比剖析 Flink牛刀小试-Flink SQL Table 我们一起去看2018中超联赛 Flink牛刀小试-Flink基于Kafka-Connector 数据流容错回放机制及代码案例实战 [Flink牛刀小试-Flink

CDH-Namenode-Yarn-Hbase-Hive的HA配置-Flink on yarn配置

阅读更多关于 CDH-Namenode-Yarn-Hbase-Hive的HA配置-Flink on yarn配置

配置namenode HA高可用使用cloudera manager方式安装，namenode是单节点方式，需要额外配置成HA。配置NameNode HA的两点前提条件：（1）至少是3个或3个以上奇数个JournalNode，否则将无法继续配置NameNode HA. （2）配置NameNode需要有Zookeeper. 在hdfs - 操作 -选择启用HA 填写nameservice名称，自定义即可：选择另外一台服务器安装namenode ，三个或5个节点安装journalnode。配置namenode,journalnode数据目录,如/data1/dfs/nn，/data1/dfs/jn 继续等待命令执行完成，按照向导操作即可启用HA成功配置yarn HA高可用使用管理员用户登录Cloudera Manager的Web管理界面，进入YARN服务点击“启用High Avaiability”，选择ResourceManager主机点击“继续”，启用ResourceManager HA 点击“完成”，查看YARN服务实例可以看到YARN的ResourceManager实例为两个，一个是活动状态，一个是备用状态，至此已完成YARN HA的启用，那么接下来就测试下YARN HA功能的可用性。 Yarn HA功能可用性测试 ResourceManager服务状态

爬取了拉勾大数据专家的简历，终于知道自己差在哪里了

阅读更多关于爬取了拉勾大数据专家的简历，终于知道自己差在哪里了

有个朋友，上个月准备从 Java 转做大数据，一个月过去了，一份面试都没约到，来问我怎么回事。我一看简历，期望年薪 40w，深度也不够，要大项目也没有。我们做大数据的，虽说是薪资高，但门槛也是高，这几年我陆陆续续面过不少人，对面人选人都算是有自己的心得，今天就挑一个年薪 40w 的大数据简历，看看人家凭什么！篇幅有限，我截取了一部分他的工作经历。不管你是已经入坑大数据，还是打算转行大数据，都会让你有一些新的启发。不管薪资多少，大数据的几个技术栈肯定得熟练掌握，这是基石不用说，这哥们算是比较全面的，像是Hadoop MR、 Spark、Storm、Flink等都能熟练使用，能做到这些，要个 20-30w 不成问题。那人家为啥值 40w 呢？仔细看他还做过项目leader，搞过项目架构，想必综合能力应该不错。果不其然，从简历上看，除了大数据开发，人家还拥有大数据分析、数据仓库架构设计、大数据平台构建、场景化方案定制等多方面的能力。此外，还有一个大大大大的加分项，人家是做过千亿级数据项目的，在我们这个圈子，有这样的经历实在是太难得了。为了进一步弄清楚行业需求现状，我分析了上百家大厂的大数据岗位要求，梳理出了一份大数据工程师的学习成长路线，给各位看官参考。总结一下：如果你也打算转行大数据，你得先掌握上面提到的技术栈，毕竟这是基本功，再就是建立你自己的知识体系

Java 方式实现词云显示

阅读更多关于 Java 方式实现词云显示

先来看下词云效果图吧！实现词云图2种方式 word_cloud、stylecloud word_cloud ： http://amueller.github.io/word_cloud/ stylecloud ： https://github.com/minimaxir/stylecloud 1、需要先添加一下maven依赖 <dependency> <groupId>com.kennycason</groupId> <artifactId>kumo-core</artifactId> <version>1.27</version> </dependency> <dependency> <groupId>com.kennycason</groupId> <artifactId>kumo-tokenizers</artifactId> <version>1.27</version> </dependency> package com.lei.test; import com.kennycason.kumo.CollisionMode; import com.kennycason.kumo.WordCloud; import com.kennycason.kumo.WordFrequency; import com.kennycason.kumo.bg

揭秘！开源软件背后的神秘组织

阅读更多关于揭秘！开源软件背后的神秘组织

每谈及开源、开源社区，就不得不提及 Apache 软件基金会（Apache Software Foundation，ASF），作为全球最大的开源组织，它究竟是如何运行管理的？ Flink 社区将分享“走进 ASF”系列内容，先从宏观介绍 ASF 是如何运作的，然后详细解说如何参与 Apache 具体项目做贡献，如何成为某个项目的 Committer、PMC 成员，如何选择多个 Apache 项目进行多领域贡献并成为 ASF Member 等，希望有助于你真正了解开源、参与开源。我的开源之旅我2011年加入阿里，经历过若干组织架构调整，做过行为日志 OPlog，阿里郎，云转码，文档转换等若干产品，在2016年10月份由于团队需要有幸接触到 Blink 的开发，开始了解 Apache Flink 社区，由初期的参与社区开发到后来逐渐主导具体模块的开发，到负责 Apache Flink Python API(PyFlink) 的建设。目前是 ASF Member, PMC member of @ApacheFlink and a Committer for @ApacheFlink, @ApacheBeam, @ApacheIoTDB 。我的开源之旅如下：为何要写《走进 ASF 系列》文章？为啥要写《走进 ASF 系列》文章？核心考虑是发现国内大多数人都听说过 ASF

0003-Flink运行helloWorld(Standlone模式)(后台命令提交)

阅读更多关于 0003-Flink运行helloWorld(Standlone模式)(后台命令提交)

一、将包上传至服务器我们将0002章节出的jar包上传至服务器/home/flink-1.10.1/myPackage路径下二、关闭之前的任务注：因为我们只有一个solt，不关闭之前的任务，新提交的任务获取不到资源。三、执行下方命令，提交任务 ./bin/flink run -c com.zjt.StreamWordCount /home/flink-1.10.1/myPackage/FlinkTurtorial-1.0-SNAPSHOT-jar-with-dependencies.jar --host localhost --port 7777 出现下图所示说明提交成功我们再前往Flink管理界面中，查看任务已经数运行状态了来源： oschina 链接： https://my.oschina.net/u/4375980/blog/4617372

【赵强老师】Flink的Watermark机制（基于Flink 1.11.0实现）

阅读更多关于【赵强老师】Flink的Watermark机制（基于Flink 1.11.0实现）

在使用eventTime的时候如何处理乱序数据？我们知道，流处理从事件产生，到流经source，再到operator，中间是有一个过程和时间的。虽然大部分情况下，流到operator的数据都是按照事件产生的时间顺序来的，但是也不排除由于网络延迟等原因，导致乱序的产生，特别是使用kafka的话，多个分区的数据无法保证有序。所以在进行window计算的时候，我们又不能无限期的等下去，必须要有个机制来保证一个特定的时间后，必须触发window去进行计算了。这个特别的机制，就是watermark。Watermark是用于处理乱序事件的，用于衡量Event Time进展的机制。watermark可以翻译为水位线。一、Watermark的核心原理 Watermark的核心本质可以理解成一个延迟触发机制。在 Flink 的窗口处理过程中，如果确定全部数据到达，就可以对 Window 的所有数据做窗口计算操作（如汇总、分组等），如果数据没有全部到达，则继续等待该窗口中的数据全部到达才开始处理。这种情况下就需要用到水位线（WaterMarks）机制，它能够衡量数据处理进度（表达数据到达的完整性），保证事件数据（全部）到达 Flink 系统，或者在乱序及延迟到达时，也能够像预期一样计算出正确并且连续的结果。当任何 Event 进入到 Flink 系统时，会根据当前最大事件时间产生

订阅 Apache Flink