Apache Flink

敖丙8年经验读者,疫情期间面20家大厂总结

谁都会走 提交于 2020-11-01 07:20:36
本文来自一个8年大数据老兵的面试经历投稿,我完完整整的看了一遍,真的很细很细,疫情期间面试各种失败各种总结,最后拿到Offer实属不易,精神很值得大家学习 前言 我不是什么大牛,我只是一个有八年工作经验的互联网老兵,既没有非常亮眼的学历,也没有牛逼大厂的履历。 这个冬天,在孩子得病从急诊转住院的时候,我得到了年前将被优化的消息,作为家里唯一经济来源的我整个人蒙了,一时间茫然和无助差点毁了我。 最后我还是和家人如实说了,受到了他们的极大的鼓励,也找到了重新开始的勇气。 可惜这场疫情来的如此凶猛,职位少、要求高、电话面试、视频面试、在线coding、屡战屡败、屡败屡战,构成了我这两个月的常规生活。 我一开始也焦虑、茫然,甚至对自己的能力和工作经验深深怀疑。 后来经过几个好朋友的鼓励打气,也看了敖丙的很多面试文章,认真总结自己面试中不足的地方,查漏补缺,终于在这周确定了offer。(这是原话,我真没瞎加哈哈) 接下来我就我之前面过的腾讯、高德、京东、美团、饿了么、快手、字节跳动、滴滴、360金融、跟谁学、网联清算、华晨宝马、快看漫画、陌陌、脉脉等等等公司的面试题做一下总结,权当抛砖引玉,希望对大家有帮忙。 面试问题汇总 基础问题 linux和网络基础 (1)linux系统内核态和用户态是什么,有什么区别? (2)BIO、NIO、AIO都是什么,有什么区别? (3)TCP和UDP的区别?

大数据Hadoop生态圈介绍

∥☆過路亽.° 提交于 2020-10-31 10:02:20
一.Hadoop简介 Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 二.Hadoop生态圈组件介绍 1.HDFS(分布式文件系统) HDFS是整个hadoop体系的基础,负责数据的存储与管理。HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。 client:切分文件,访问HDFS时,首先与NameNode交互,获取目标文件的位置信息,然后与DataNode交互,读写数据 NameNode:master节点,每个HDFS集群只有一个,管理HDFS的名称空间和数据块映射信息,配置相关副本信息,处理客户端请求。 DataNode:slave节点,存储实际数据,并汇报状态信息给NameNode,默认一个文件会备份3份在不同的DataNode中,实现高可靠性和容错性。

【2020-10-28】加油打工人

百般思念 提交于 2020-10-30 08:52:16
我的大学 普通二本,电子信息工程专业,没的说,学不到啥东西,考试真的很水,一学期不听课,期末复习都能考个七八十,运气好还能上9,比起辛辛苦苦听课也考九十几得我来说不值一提。 培训班千万别去,他只是一个监督你学习的地方,你连自己都监督不了,怎么可能学的好呢? 做了两年竞赛,省一二三都拿过,你要是找专业对口的工作还有点用。 大三觉得自己专业没出路,自己学了java、mysql、大数据框架(hadoop、hive、flume、hbase、spark、flink),大数据这东西还挺吃香,但是你没有实际的项目经验,做的网上的小玩意,工作还是很难找的,不过你要是深入了解并且懂了,那么你就是大佬。 大四上做了毕设,下学期去实习了。 其他同学考研、考公、找工作的、还有去当兵的。 真想念那些日子,即使在实习,也每周五坐夜车回去学校跟他们一起看LPL,那时候还没有轻轨,做的大巴,一躺就要一个半小时,顺便在车上给爸妈打电话。 杭漂人 今年刚毕业,普通二本,很后悔当初没有考研,直到找工作跟你谈薪资的时候,看到是普通本 科的,直接给你刷掉2-3K,很现实的一个东西。 有两段实习经历,去年十月份开始的,到现在有一年多的工作经验了 ,第一次实习坎坎坷坷,做的是数据仓库的东西,应为是实习生,干的都是一些体力活,偶尔加一点脑力的,所以做了两个多月,就走人了,也没学到啥东西。 第二段实习,就是我现在做的工作

Flink基于Kafka-Connector 数据流容错回放机制

可紊 提交于 2020-10-29 10:54:28
Flink基于Kafka-Connector 数据流容错回放机制及代码案例实战-Flink牛刀小试 Flink牛刀小试系列目录 Flink牛刀小试-Flink 集群运行原理兼部署及Yarn运行模式深入剖析 Flink牛刀小试-Flink Window类型及使用原理案例实战 Flink牛刀小试-Flink Broadcast 与 Accumulators 应用案例实战 Flink牛刀小试-Flink与SparkStreaming之Counters& Accumulators 累加器双向应用案例实战 Flink牛刀小试-Flink分布式缓存Distributed Cache应用案例实战 Flink牛刀小试-Flink状态管理与checkPoint数据容错机制深入剖析 Flink牛刀小试-Flink Window分析及Watermark解决乱序数据机制深入剖析 Flink牛刀小试-Flink Restart Strategies 重启策略机制深入剖析 Flink牛刀小试-Flink CheckPoint状态点恢复与savePoint机制对比剖析 Flink牛刀小试-Flink SQL Table 我们一起去看2018中超联赛 Flink牛刀小试-Flink基于Kafka-Connector 数据流容错回放机制及代码案例实战 [Flink牛刀小试-Flink

CDH-Namenode-Yarn-Hbase-Hive的HA配置-Flink on yarn配置

别说谁变了你拦得住时间么 提交于 2020-10-28 08:41:28
配置namenode HA高可用 使用cloudera manager方式安装,namenode是单节点方式,需要额外配置成HA。配置NameNode HA的两点前提条件: (1)至少是3个或3个以上奇数个JournalNode,否则将无法继续配置NameNode HA. (2)配置NameNode需要有Zookeeper. 在hdfs - 操作 -选择启用HA 填写nameservice名称,自定义即可: 选择另外一台服务器安装namenode ,三个或5个节点安装journalnode。 配置namenode,journalnode数据目录,如/data1/dfs/nn,/data1/dfs/jn 继续等待命令执行完成,按照向导操作即可 启用HA成功 配置yarn HA高可用 使用管理员用户登录Cloudera Manager的Web管理界面,进入YARN服务 点击“启用High Avaiability”,选择ResourceManager主机 点击“继续”,启用ResourceManager HA 点击“完成”,查看YARN服务实例 可以看到YARN的ResourceManager实例为两个,一个是活动状态,一个是备用状态,至此已完成YARN HA的启用,那么接下来就测试下YARN HA功能的可用性。 Yarn HA功能可用性测试 ResourceManager服务状态

爬取了拉勾大数据专家的简历,终于知道自己差在哪里了

对着背影说爱祢 提交于 2020-10-27 16:17:07
有个朋友,上个月准备从 Java 转做大数据,一个月过去了,一份面试都没约到,来问我怎么回事。 我一看简历,期望年薪 40w,深度也不够,要大项目也没有。 我们做大数据的,虽说是薪资高,但门槛也是高,这几年我陆陆续续面过不少人,对面人选人都算是有自己的心得, 今天就挑一个年薪 40w 的大数据简历,看看人家凭什么! 篇幅有限,我截取了一部分他的工作经历。不管你是已经入坑大数据,还是打算转行大数据,都会让你有一些新的启发。 不管薪资多少,大数据的几个 技术栈 肯定得熟练掌握,这是基石不用说,这哥们算是比较全面的,像是Hadoop MR、 Spark、Storm、Flink等都能熟练使用,能做到这些,要个 20-30w 不成问题。 那人家为啥值 40w 呢?仔细看他还做过项目leader,搞过 项目架构 ,想必综合能力应该不错。果不其然,从简历上看,除了大数据开发,人家还拥有大数据分析、数据仓库架构设计、大数据平台构建、场景化方案定制等多方面的能力。 此外,还有一个大大大大的加分项,人家是做过 千亿级数据项目 的,在我们这个圈子,有这样的经历实在是太难得了。 为了进一步弄清楚行业需求现状,我分析了上百家大厂的大数据岗位要求,梳理出了一份大数据工程师的学习成长路线,给各位看官参考。 总结一下: 如果你也打算转行大数据,你得先掌握上面提到的技术栈,毕竟这是基本功,再就是建立你自己的知识体系

Java 方式实现词云显示

筅森魡賤 提交于 2020-10-27 06:39:22
先来看下词云效果图吧! 实现词云图2种方式 word_cloud、stylecloud word_cloud : http://amueller.github.io/word_cloud/ stylecloud : https://github.com/minimaxir/stylecloud 1、需要先添加一下maven依赖 <dependency> <groupId>com.kennycason</groupId> <artifactId>kumo-core</artifactId> <version>1.27</version> </dependency> <dependency> <groupId>com.kennycason</groupId> <artifactId>kumo-tokenizers</artifactId> <version>1.27</version> </dependency> package com.lei.test; import com.kennycason.kumo.CollisionMode; import com.kennycason.kumo.WordCloud; import com.kennycason.kumo.WordFrequency; import com.kennycason.kumo.bg

揭秘!开源软件背后的神秘组织

你离开我真会死。 提交于 2020-10-26 23:59:58
每谈及开源、开源社区,就不得不提及 Apache 软件基金会(Apache Software Foundation,ASF),作为全球最大的开源组织,它究竟是如何运行管理的? Flink 社区将分享“走进 ASF”系列内容,先从宏观介绍 ASF 是如何运作的,然后详细解说如何参与 Apache 具体项目做贡献,如何成为某个项目的 Committer、PMC 成员,如何选择多个 Apache 项目进行多领域贡献并成为 ASF Member 等,希望有助于你真正了解开源、参与开源。 我的开源之旅 我2011年加入阿里,经历过若干组织架构调整,做过行为日志 OPlog,阿里郎,云转码,文档转换等若干产品,在2016年10月份由于团队需要有幸接触到 Blink 的开发,开始了解 Apache Flink 社区,由初期的参与社区开发到后来逐渐主导具体模块的开发,到负责 Apache Flink Python API(PyFlink) 的建设。目前是 ASF Member, PMC member of @ApacheFlink and a Committer for @ApacheFlink, @ApacheBeam, @ApacheIoTDB 。我的开源之旅如下: 为何要写《走进 ASF 系列》文章? 为啥要写《走进 ASF 系列》文章?核心考虑是发现国内大多数人都听说过 ASF

0003-Flink运行helloWorld(Standlone模式)(后台命令提交)

喜你入骨 提交于 2020-10-25 12:57:25
一、将包上传至服务器 我们将0002章节出的jar包上传至服务器/home/flink-1.10.1/myPackage路径下 二、关闭之前的任务 注:因为我们只有一个solt,不关闭之前的任务,新提交的任务获取不到资源。 三、执行下方命令,提交任务 ./bin/flink run -c com.zjt.StreamWordCount /home/flink-1.10.1/myPackage/FlinkTurtorial-1.0-SNAPSHOT-jar-with-dependencies.jar --host localhost --port 7777 出现下图所示说明提交成功 我们再前往Flink管理界面中,查看任务已经数运行状态了 来源: oschina 链接: https://my.oschina.net/u/4375980/blog/4617372

【赵强老师】Flink的Watermark机制(基于Flink 1.11.0实现)

徘徊边缘 提交于 2020-10-25 10:57:46
在使用eventTime的时候如何处理乱序数据?我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络延迟等原因,导致乱序的产生,特别是使用kafka的话,多个分区的数据无法保证有序。所以在进行window计算的时候,我们又不能无限期的等下去,必须要有个机制来保证一个特定的时间后,必须触发window去进行计算了。这个特别的机制,就是watermark。Watermark是用于处理乱序事件的,用于衡量Event Time进展的机制。watermark可以翻译为水位线。 一、Watermark的核心原理 Watermark的核心本质可以理解成一个延迟触发机制。 在 Flink 的窗口处理过程中,如果确定全部数据到达,就可以对 Window 的所有数据做 窗口计算操作(如汇总、分组等),如果数据没有全部到达,则继续等待该窗口中的数据全 部到达才开始处理。这种情况下就需要用到水位线(WaterMarks)机制,它能够衡量数据处 理进度(表达数据到达的完整性),保证事件数据(全部)到达 Flink 系统,或者在乱序及 延迟到达时,也能够像预期一样计算出正确并且连续的结果。当任何 Event 进入到 Flink 系统时,会根据当前最大事件时间产生