Apache Spark

字节跳动五面都过了,竟然意外被刷了下来,问了hr原因竟说是。。。。。

我只是一个虾纸丫 提交于 2020-12-10 19:41:41
说在前面,面试时最好不要虚报工资。本来字节跳动是很想去的,几轮面试也通过了,最后没offer,自己只想到几个原因:1、虚报工资,比实际高30%;2、有更好的人选,这个可能性不大,我看还在招聘。我是面试Android开发的,3年经验,下面是面试流程: 一面 1.插件化。启动activity的hook方式。taskAffity。 2.okhttp支持HTTP2?http2的功能有哪些?tcp方面拥塞控制?tsl的握手和具体的非对称加密算法。非对称名称 3.handler的post(Runnable)如何实现的。callback,runnable,msg的执行优先级。 4.阻塞是怎么实现的?为什么不会阻塞主线程? 5.求二叉树中两个节点之间的最大距离。 6.206含义,未修改资源是哪个,302含义,301含义 7.多进程通信问题。binder优势。aidl生成的java类细节。多进程遇到哪些问题? 8.动态代理传入的参数都有哪些?非接口的类能实现动态代理吗?ASM的原理 9.Application和Activity在Context的继承树上有何区别?二者使用上有何不同? 10.任意一颗二叉树,求最大节点距离 二面 1.设计一个日志系统。 2.内存泄露的分类。怎么查看内存泄露的问题 3.touch事件源码问题。 4.组件化的问题。module和app之间的区别

parkSQL极速入门 整合Kudu实现广告业务数据分析

不想你离开。 提交于 2020-12-10 16:57:24
parkSQL极速入门 整合Kudu实现广告业务数据分析 下载地址: 百度云盘 课程结合案例驱动,全面讲解Spark SQL大数据离线理处理必备的知识点。在项目部分,使用Kudu整合Spark进行广告业务功能的实现,并针对已实现的需求代码进行调优;通过扩展Presto和大数据平台建设方面的相关内容,进一步提升技能。本课程干货丰富,是大数据开发者们加薪、跳槽、转型的必备利 器。 适合人群 具备相关技术储备,想快速提升Spark技能以及想转行投身 大数据行业的小伙伴 技术储备要求 熟悉Linux常用操作 / 熟悉SQL基本使用 了解Hadoop基础知识 / 了解Scala基本语法 章节目录: 第1章 课程介绍&学习指南 本章会对这门课程进行说明并进行学习方法介绍。 1-1 课程导学试看 1-2 ***学前必读***(助你平稳踩坑,畅学无忧,课程学习与解决问题指南) 第2章 为什么要学Spark Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章节将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特性、环境部署、Spark与Hadoop的对比、Spark开发语言及运行模式等。 2-1 课程目录 2-2 MapReduce的槽点 2-3 Spark特性详解 2-4 Spark Stack 2-5 OOTB环境的使用 2-6 JDK部署 2

scala中的self =>

耗尽温柔 提交于 2020-12-10 11:34:44
在scala的一些开源项目的源码中总是能看到类似self =>关键字,那这到底代表什么呢?在此,记录一下,仅作为笔记 this 别名 这种相当于给this起了一个别名self,这里的self可以换成其他的你自己喜欢的字符串,看一下spark的源码sparkSession的定义: class SparkSession private( @transient val sparkContext: SparkContext, @transient private val existingSharedState: Option[SharedState], @transient private val parentSessionState: Option[SessionState], @transient private[sql] val extensions: SparkSessionExtensions) extends Serializable with Closeable with Logging { self => ... @Unstable @transient lazy val sessionState: SessionState = { parentSessionState .map(_.clone(this)) .getOrElse { val state =

腾讯云CES自动化运维架构及最佳实践

大兔子大兔子 提交于 2020-12-10 10:52:07
主题: 腾讯云CES自动化运维架构及最佳实践 大纲: 1. 如何看待“运维”在公司的定位和未来的发展方向 2. 做好自动化运维架构需要关注哪些方面 3. 运维岗位必备技能 4. 提效处理故障方面的建议 5. 腾讯云CES方面的运维架构有哪些独到之处 听说3306π要搞事情了 是啊,马上要搞3306π深圳站了 啊,是吗?哪天啊,在哪里办,怎么报名? 12月19日 ,就在 深圳南山区海岸城 ,点文末的原文链接或者扫描二维码就可以报名了,一起来吹吹牛逼。 嘉宾自我介绍 李明 高级运维工程师 曾先后在携程、华为云等公司从事多年MySQL DBA的工作,目前在腾讯负责腾讯云Elasticsearch,CTSDB产品的运维工作。对于ES、CTSDB在日志分析、大数据搜索、时序分析等场景的使用有丰富的实践经验。 01 李老师,很多人都在谈脱离传统运维模式,更好的帮助业务前行。您是如何看待“运维”在公司的定位和未来的发展方向呢? 运维作为一个比较传统的岗位,在当前大量中小企业都拥抱上云或自动化程度越来越高的背景下,其工作的定位的却是受到了一些影响,以前需要专业运维来部署的一些环境,现在并不是那么需要了,但这并不意味着运维岗位的生存将受到很大的影响。 只是对运维人员提出了更高的要求,一方面需要运维人员对所服务的产品本身的特性,要相对开发人员有更深的认识,从而指导其更开发出更专业的产品

选方向?大数据的职位你了解多少

谁都会走 提交于 2020-12-10 08:45:57
这是 大数据入门常识 第一篇,主要讨论大数据工作的方向问题。 后续还会把 “大数据实际工作中的职责”,“大数据需要学的内容”,“大数据如何学习” 这三个议题写成三篇文章展开来详细讨论,敬请期待,如果有其他感兴趣的问题也可以告诉我,我会给大家安排上。 言归正传,在我的第一期「定制学习」基础班,有不少刚入门的同学问了我类似这样的问题 看招聘网站上,大数据相关的方向好多,不知道自己适合哪个怎么办? 关注我的同学应该有不少是刚入门的,所以我把内容好好地整理总结了发出来希望能帮到更多人。 另外,对刚刚提到的「 定制学习 」有兴趣的可以点击看下面的链接了解下详情 公众号:大叔据 在线一对一大数据定制学习详情 大数据开发工程师 大数据开发,大数据平台开发,大数据系统开发,大数据应用开发等等好多种排列组合的说法其实都是类似的,都是同一种大数据猿类,只是各个公司的描述不同而已。为了更具有说服力,我在招聘网站上找了个比较通用的任职要求,大家 先来看看。 首先,这种猿类对开发能力有比较高的要求,而且其实在实际工作中,大数据开发和Java后端开发是有一些关联的( 因此有后端的朋友问我转方向事宜我都会建议这个方向 ),大数据开发需要提供接口服务,但是服务端的实现不同的是会对接更多的是大数据技术,也就是说需要用大数据的技术去实现一些需求然后通过接口的方式把数据返回给业务方。 涉及分布式存储,分布式批/流计算

大数据体系

情到浓时终转凉″ 提交于 2020-12-09 18:56:02
一、数据科学家 数据科学(Data Science) 这一概念自大数据崛起也随之成为数据领域的讨论热点,“数据科学家”成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学?大数据和数据科学又是什么关系?大数据在数据科学中起到怎样的作用?本文主要是想起到科普作用,使即将或正在从事数据工作的朋友对数据科学工作有一个全概貌了解,也使各有想法进入大数据领域的朋友在真正从事大数据工作之前对行业的情况有所知晓。数据科学是一个混合交叉学科(如下图所示),要完整的成为一个数据科学家,就需要具备较好的 数学和计算机知识 ,以及某一个 专业领域 的知识。所做的工作都是围绕数据打转转,在数据量爆发之后,大数据被看做是数据科学中的一个分支。 二、大数据体系 大数据(Big Data)其实已经兴起好些年了,只是随着无处不在的传感器、无处不在的数据埋点,获取数据变得越来越容易、量越来越大、内容越来越多样化,于是原来传统的数据领域不得不思考重新换一个平台可以处理和使用逐渐庞大数据量的新平台。用以下两点进一步阐述: 吴军博士提出的一个观点:现有产业+新技术=新产业,大数据也符合这个原则,只是催生出来的不仅仅是一个新产业,而是一个完整的产业链:原有的数据领域+新的大数据技术=大数据产业链; 数据使用的范围,原来的数据应用主要是从现有数据中的数据中进行采样,再做数据挖掘和分析

Data + AI Summit 欧洲2020全部超清 PPT 下载

爷,独闯天下 提交于 2020-12-07 08:19:28
Data + AI Summit Europe 2020 原 Spark + AI Summit Europe 于2020年11月17日至19日举行。由于新冠疫情影响,本次会议和 六月份举办的会议 一样在线举办,一共为期三天,第一天是培训,第二天和第三天是正式会议。会议涵盖来自从业者的技术内容,他们将使用 Apache Spark ™、Delta Lake、MLflow、Structured Streaming、BI和SQL分析、深度学习和机器学习框架来解决棘手的数据问题。会议的全部日程请参见: https://databricks.com/dataaisummit/europe-2020/agenda 。 和今年六月份会议不一样,这次会议的 KeyNote 没什么劲爆的消息,不过会议的第二天和第三天还是有些干货大家可以看下的。在接下来的几天,本公众号也会对一些比较有意思的议题进行介绍,敬请关注本公众号。 本次会议的议题范围具体如下: 人工智能用户案例以及新的机会; Apache Spark™, Delta Lake, MLflow 等最佳实践和用户案例; 数据工程,包括流架构 使用数据仓库(data warehouse)和数据湖(data lakes)进行 SQL 分析和 BI; 数据科学,包括 Python 生态系统; 机器学习和深度学习应用 生产机器学习(MLOps)

数据中台的“自动化数据治理”时代已来

不羁的心 提交于 2020-12-06 19:46:11
中台,我理解是能力的下沉,数据处理能力下沉为加工平台,数据处理结果下沉为数据资产。那么数据治理能否下沉?可以下沉出什么东西? ——宜信数据中台负责人 卢山巍 本文来源:宜信数据中台负责人卢山巍在亿欧产业互联网频道“数字中台创新”沙龙的分享实录 原文首发:亿欧 亿欧产业互联网频道10月24日在上海InnoSpace落地“数字中台创新”沙龙,活动汇聚了良品铺子电商技术中心总监罗轶群、爱驰汽车科技信息总监杭瑜峰、宜信数据中台负责人卢山巍、ThoughtWorks首席咨询师及极客时间《说透中台》专栏作者王健、亿欧华东负责人缪国成、亿欧产业互联网频道副主编黄志磊、亿欧产业互联网频道作者龚晨霞参与分享,就数字中台话题展开深度讨论。 宜信是一家成立于2006年从事普惠金融和财富管理业务的金融科技企业,2018年基于四大开源平台和中间件等技术,开始研发数据中台,并在宜信内部推广使用。目前,宜信的中台部门一共分为两大板块:数据中台和AI中台。 以下是卢山巍演讲观点梳理: 1、宜信数据中台指导思维:统一建设、敏捷开发 2、从开源到中台,关键词是自助化 3、数据治理,更依赖人治还是自治? 以下是演讲速记实录,经亿欧产业互联网频道整理,供行业人士参考。 大家下午好,我叫卢山巍,来自宜信。刚才听罗总高屋建瓴地介绍了中台的概念和应用,受益匪浅。我的分享会不太一样:第一,我有一个限定词是“数据”

Spark Standalone 提交模式

折月煮酒 提交于 2020-12-06 19:14:52
一.Client提交模式   提交命令:     ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadooop2.6.0.jar 100     等价【默认为client】:     ./spark-submit --master spark://node1:7077 --deploy-mode client --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadooop2.6.0.jar 100   执行流程:      分析:     standalone-client模式提交任务,会在客户端看到task的执行情况和结果。当在客户端提交多个application时,每个application会启动自己的dirver,driver与集群worker有大量的通信,会造成客户端网卡流量激增的问题,这种模式适用于测试而不适应于生产环境。 二.Cluster提交模式   提交命令:     ./spark-submit --master spark://node1:7077 --deploy-mode cluster -

spark mllib 分类预测之逻辑回归

我与影子孤独终老i 提交于 2020-12-06 12:39:49
胃癌转移数据说明 肾细胞癌转移情况(有转移 y= 1 , 无转移 y= 2 ) x1:确诊时患者年龄(岁) x2:肾细胞癌血管内皮生长因子(VEGF) , 其阳性表述由低到高共3个等级 x3:肾细胞癌组织内微血管数(MVC) x4:肾癌细胞核组织学分级,由低到高共4级 x5:肾细胞癌分期,由低到高共4级 y x1 x2 x3 x4 x5 0 59 2 43.4 2 1 运行代码如下 package spark.logisticRegression import org.apache.spark.mllib.classification.LogisticRegressionWithSGD import org.apache.spark.mllib.evaluation.MulticlassMetrics import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.mllib.util.MLUtils import org.apache.spark.{SparkConf, SparkContext} /** * MLLib分类,逻辑回归,是分类,不是回归 * 胃癌转移判断 * Created by