Apache Spark

最近做大数据面试官的感想

蹲街弑〆低调 提交于 2021-01-27 02:00:43
时间是不可逆的,我们不可能经历之后,然后再返回来修正自己过去的行为,但是我们可以通过观察不同时间段的相同职业人的现状来修正自己。 最近一段时间,浪尖忙于招人面试,在面试别人的过程中收获了很多,我相信被我面试的人也会收获很多。 面试者的工作经验有十年以上的,有五六年,还有两三年的,每个年龄段都有自己的优点和缺点(这是句废话,每个人都是优缺点参半,实际上强调的是技术实力的优缺点),在这里,其实我想表达的事情是 通过不同年龄段的人在技术及经验方面的表现,可以映射到我们每一个人在不同年龄段的技术及经验的表现,通过多个人的历程来映射或者是分析我们自身在不同年龄段的状况。 对于十年左右工作经验的人 ,一般勤奋的人的资历、技术经验、项目管理经验及整个架构的言语表达都是非常赞的。但是,可能是父母,老婆,孩子等相关人、事耗去了很大的精力,在新技术的学习掌握能力上不是很好,当然了有实战的平台和心劲儿才是这块的关键。当然,这种人我们关注的应该是项目经验、架构能力、管理能力及表达能力,最好对新的技术框架有自己的认识,技术细节等我们不太关注,这个浪尖面试的比较少,原因是因为我们招的是干活的人而不是管干活的人。 对于五年左右工作经验的人 ,正当年,项目经验、技术实力、编程功底、架构能力都应该很赞,但是面试很多个都是什么都接触了,什么都用了,通过问问题和自我描述确实做过, 高考查分 但是架构设计一般般

Python-GUI|Tkinter模块

谁说我不能喝 提交于 2021-01-26 08:19:14
01 Tkinter Tkinter模块是 Python 的标准Tk GUI工具包的接口,它并不是必须掌握的,但是 掌握一个Python的标准图形库还是非常有意思的一件事 。 它可以跨平台运行在 Windows,Linux和Mac等系统上。 这篇文章不会介绍如何灵活地运用Tkinter,而是阐述Tkinter这个库包括什么,它能干什么! 02 第一个Tk-GUI from tkinter import * root=Tk() root.title('first tk gui') root.geometry('500x200') x = Label(root,text='Hello',bg='green',font=('Arial',12),width=15,height=2) x.pack() x.mainloop() 首先导入tkinter 模块,这个模块包括了所需要的所有的类和函数 然后,需要创建一个(根)窗口,它是一个普通的窗口,带有标题栏、最小化按钮、最大化按钮等,即:root = Tk() ,调用title接口,geometry分别设置根窗口的标题,大小。 然后我们就可以在该窗口上创建一个Label,即贴一个标签,这个Label可以显示文本、图标、图像等等。我们这里使用text来指定要显示的文本,而第一个参数root,表明x的父控件是root

Spark-01 spark简介

南楼画角 提交于 2021-01-26 08:08:21
前言:大牛说由spark入手比较合适 1.spark简介 spark是个计算框架,不存东西。MapReduce是Hadoop里面做计算的,也不存东西,出现比spark早,自从spark活跃起来后mc的很多程序就被重写为spark程序了。spark的api使用起来也比较简单。   spark起源于2009年加州大学伯克利分校的实验室,20年成为开源项目,2014年就变成了apache的顶级项目。这里用spark2.3. 2,spark与MapReduce(mc)的比较 2-1 优缺点比较   yarn、Mapreduce、hdfs是hadoop的三大组件,mapreduce计算框架有如下缺点:   a.可编程性差。有很多模板代码,每写一次都要重复模板代码。 b.缺乏通用的计算引擎。例如:现在设计一个大数据平台,需要它可以离线计算、流处理,机器学习。方案一:用hadoop做离线计算、storm流处理、tensorflow做机器学习;方案二:只用spark,因为spark这三种都有。那么我们很容易选择方案二。当然了,大公司可能都用,但是那是因为历史原因,以前只有mc,现在也暂时换不了全部的spark。 c.计算速度慢。一个问题,是基于磁盘计算快还是内存快?当然是内存,内存比磁盘快几十倍。mc计算过程会存磁盘,spark会优先使用内存进行计算,内存不足的情况下才会选用磁盘。 总之

Spark Streaming与kafka对接

本秂侑毒 提交于 2021-01-24 07:56:21
使用KafkaUtil来实现SparkStreaming的对接。 KafkaUtil共有两个版本: spark-streaming-kafka-0-8 spark-streaming-kafka-0-10 kafka version 0.8.2.1 or higher 0.10.0 or higher Offset Commit API × √ 其中0.8版本已经被遗弃, 不建议使用。 消费kafka共有三种消费语义: 1.At most once: 至多消费一次 2.At least once: 至少一次 3.Exactly once:精确消费一次 其中, at least once级别推荐使用官方API对kafka offset进行维护, 代码如下: object SSApp02 { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").setAppName("hehe") val ssc = new StreamingContext(sparkConf, Seconds(3)) ssc.sparkContext.setLogLevel("ERROR") val kafkaParams = Map[String, Object](

Clickhouse 在58的实践之路

限于喜欢 提交于 2021-01-23 09:04:52
文章目录 1 Clickhouse简介 1.1 为什么选择Clickhouse 1.2 Clickhouse特性 2 Clickhouse建设 2.1 整体架构 2.1.1 数据接入层 2.1.2 数据存储层 2.1.3 数据服务层 2.1.4 数据应用层 3 Clickhouse运维管理平台 3.1 配置文件结构 3.2 元数据管理 3.3 自动化运维 3.4 监控与报警 4 Clickhouse应用 4.1 BI查询引擎 4.2 集群构建 4.3 问题及优化 5 实时数仓 5.1 分层架构 5.2 数据输入与输出 5.3 数据产品 6 常见问题 6.1 数据写入 6.2 JOIN操作 6.3 常用参数 7 总结与展望 在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能,提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本,并结合具体案例说明Clickhouse的实践过程。 Clickhouse简介 为什么选择Clickhouse 目前企业用户行为日志每天百亿量级,虽然经过数仓的分层以及数据汇总层通用维度指标的预计算

Paypal data engineer面经(偏工程)

…衆ロ難τιáo~ 提交于 2021-01-23 08:56:01
一面 问的挺多的 1h 项目 经历,自我介绍还没说完就被打断问 项目 了 Java 线程如何创建 设计模式有哪些,具体怎么实现以及优缺点 synchronized如何使用 volatile如何使用 一道编程题 会议安排,计算最少房间数量 数据库 数据是如何存储的,我不懂这个问题想我回答什么 数据库三范式 事务特性 一道sql 一个employee的表,有emp_id, manager_id, salary这些,计算不同的经理他下属的平均薪水,大概是这样,只给了输出结果,一开始看的不是很懂 Spark Spark和mapreduce的区别 spark stage如何划分 spark shuffle shuffle read & shuffle write shuffle read 的数据存储在哪里 持久化的算子有哪些 cache 和persist区别 没有英语提问环节,只是问我英语怎么样 二面 2h 自我介绍 智力题3道 一道英语算术题 英语有点把我绕进去了,不过最后还是做出来了 一道找规律填数 最后一道 如何找出异常小球,只能三次称重 英语问我出国的经历,然后让我用法语说了下我在这边学到的东西 楼主在法国留学,我就随便说了一下,也不懂面试官是不是真听得懂 数仓建模的问题 因为我做过一个数仓的 项目 实习经历刨根问底 linux shell问题问了几个 sql 问了两道题 一道

Dive into Delta Lake | Delta Lake 尝鲜

ⅰ亾dé卋堺 提交于 2021-01-21 14:04:44
点击上方 蓝色字体 ,选择“ 设为星标 ” 回复”资源“获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 大数据 真好玩 点击右侧关注,大数据真好玩! Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的读取,从而为构建在 HDFS 和云存储上的数据湖(data lakes)带来可靠性。Delta Lake 还提供内置数据版本控制,以便轻松回滚。 为什么需要Delta Lake 现在很多公司内部数据架构中都存在数据湖,数据湖是一种大型数据存储库和处理引擎。它能够存储大量各种类型的数据,拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力,最早由 Pentaho 首席技术官詹姆斯迪克森在2011年的时候提出。虽然数据湖在数据范围方面迈出了一大步,但是也面临了很多问题,主要概括如下: 数据湖的读写是不可靠的。数据工程师经常遇到不安全写入数据湖的问题,导致读者在写入期间看到垃圾数据。他们必须构建方法以确保读者在写入期间始终看到一致的数据。 数据湖中的数据质量很低。将非结构化数据转储到数据湖中是非常容易的。但这是以数据质量为代价的。没有任何验证模式和数据的机制

阿里云 EMR Delta Lake 在流利说数据接入中的架构和实践

风格不统一 提交于 2021-01-21 12:45:23
简介: 为了消灭数据孤岛,企业往往会把各个组织的数据都接入到数据湖以提供统一的查询或分析。本文将介绍流利说当前数据接入的整个过程,期间遇到的挑战,以及delta在数据接入中产生的价值。 背景 流利说目前的离线计算任务中,大部分数据源都是来自于业务 DB,业务DB数据接入的准确性、稳定性和及时性,决定着下游整个离线计算 pipeline 的准确性和及时性。同时,我们还有部分业务需求,需要对 DB 中的数据和 hive 中的数据做近实时的联合查询。 在引入阿里云 EMR Delta Lake 之前,我们通过封装 DataX 来完成业务 DB 数据的接入,采用 Master-Slave 架构,Master 维护着每日要执行的 DataX 任务的元数据信息,Worker 节点通过不断的以抢占的方式获取状态为 init 和 restryable 的 DataX 任务来执行,直到当天的所有的 DataX 任务全都执行完毕为止。 架构图大致如下: Worker 处理的过程如下: 对于近实时需求,我们是直接开一个从库,配置 presto connector 去连接从库,来实现业务 BD 中的数据和 hive 中的数据做近实时的联合查询需求。 这种架构方案的优点是简单,易于实现。但是随着数据量也来越多,缺点也就逐渐暴露出来了: 性能瓶颈: 随着业务的增长,这种通过 SELECT

大数据计算系统学习笔记

倾然丶 夕夏残阳落幕 提交于 2021-01-20 17:37:17
1.大数据计算体系可归纳三个基本层次: 数据应用系统,数据处理系统,数据存储系统 2.计算的总体架构 HDFS(Hadoop 分布式文件系统) (1)设计思想:分而治之,将大文件大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。 (2)首先,它是一个文件系统,用于存储文件,通过统一的命名空间–目录树来定位文件。然后,它是分布式的,又很多服务器联合起来实现其功能,集群中的服务器有各自的角色。有namenode和datanode两部分,有点类似索引结构,并采用备份的方式,例如第二namenode和b1出现3次。 数据处理系统的比较 主要看mapreduce和spark的两个极端,包括时延和硬件的需求。 mapreduce计算模型 3.计算模型和计算架构 来源: oschina 链接: https://my.oschina.net/u/4255691/blog/4915296

阻击疫情,阿里技术人在行动

与世无争的帅哥 提交于 2021-01-19 23:52:46
点击文末 “阅读原文“ ,文中所有工具链接直达。 全民战疫情,阿里人在行动。今天,为大家推荐一些疫情治理和远程办公、学习的产品和服务,希望通过科技之力,给予政府、企业、开发者、学生等群体一些帮助。 疫情期间的生活类服务工具 高德地图为了解决武汉医护人员出行难的问题,春节期间紧急开发上线了公益“医护专车”的功能,还为散在外地的湖北人提供了酒店指引;菜鸟开通了面向武汉地区的社会捐赠救援物资免费输送绿色通道;支付宝上线了公益爱心捐赠及疫情直播项目;阿里健康提供了在线问诊的小程序。 除此之外,还有更多产品也在默默帮助和支持人们对抗疫情。 利用技术手段助力疫情治理 人人都能使用的0代码应用搭建平台——宜搭,免费向社会开放疫情相关应用,快速实现帮助社区、政府收集人员信息的功能;小程序云免费助力出入人口登记应用,帮助企事业单位应对春运返程高峰和人员登记管理;阿里云疫情防控智能服务平台上线智能辟谣,健康咨询,回访通知;小程序云联合伙伴面向政府和企业推出疫情小程序综合服务平台,提供Serverless模式、快速接入阿里经济体企业/生活服务等能力;阿里云宣布向全球公共科研机构免费开放一切AI算力;天池实验室计算资源免费开放,为开发者提供计算资源,并且持续更新新型冠状病毒疫情数据,为疫情贡献开发者的技术力量。 工具助力,在家办公也能高效运转 钉钉发布全套免费在家办公解决方案,「员工健康」可快速收集