Apache Spark

欢迎添加博主微信,期待与你一起交流

*爱你&永不变心* 提交于 2020-11-23 21:42:05
你不可能从现在预测到未来,只有回头看时,才会发现事物之间的联系。所以你必须相信,那些生命中的点点滴滴,将会在你未来的生命里以某种方式串联起来。你必须相信一些东西---你的勇气、宿命、生活、因缘、随便什么,它们将给你追寻内心真正所想的自信,带你走出平凡,变得与众不同。 -- From乔布斯在斯坦福毕业典礼上的演讲 从今年3月份开通公众号,到现在已经更新了 50 +篇原创文章。虽然平时工作很忙,但是也会抽出时间每周发1~2篇原创分享文章。目前的文章主要集中在大数据技术方面(如:Spark、Flink、Hive、Kafka、ClickHouse等),后期会分享一些工作的点滴和读书感悟。 由于新申请的公众号不具备留言功能,很多粉丝会通过后台私信的方式联系我,有时候会不能及时回复(公众号私信超过48小时,不能给对方发消息)。大家可以添加我的微信: xibei_2011 ,平时有什么事情可以给我发消息,有时间我会一一回复,期待与你一起交流。 扫描二维码添加我微信 期待与你一起交流 往期文章回顾 基于Canal与Flink实现数据实时增量同步(一) CDH集群之YARN性能调优 Flink运行架构剖析 Flink的状态后端(StateBackends) 基于Canal与Flink实现数据实时增量同步(二) Flink的八种分区策略源码解读 经典Hive-SQL面试题 Flink1

附43页PPT下载|腾讯云ClickHouse性能调优及实践

泄露秘密 提交于 2020-11-22 14:46:37
01 PDF下载 识别 下方二 维码 ,回复“ 小晨003 ”,即可下载。感觉干货多,记得 设为 星标 哦 02 PPT预览 本文分享自微信公众号 - 小晨说数据(flink-spark)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4658124/blog/4667195

纪念1024程序员日,我来说说程序员的日常生活

冷暖自知 提交于 2020-11-21 23:53:14
作者简介: 目前就职于一线互联网公司,主要是从事大数据开发工作。 关注⬆️上方公众号,及时获取一线互联网技术资讯,想要联系作者,公众号有我的微信二维码。 我们的穿搭 我们的工作 我们如何对待老婆 喜欢报喜不报忧。 我们跟产品对需求,有一套方法论 这个需求有点问题 这个需求我也有点问题 这个需求很伤脑 集体懵逼 我们可能会受到多方的施压 但是我们都会有自己的原则去应对 靠技术语言,暗示对方承认错误。 通过舆论战术,旁敲侧击,告诉产品经理,注意少提需求。 我们有时候也会耍大牌 有时候梦想自己不用敲代码了 开始做项目,我们也会各种埋怨 线上任务排查异常时,也许会加班很久,但是你的队友明知道是他的bug,他还是不想承认,甩锅给你,然后事后悄悄告诉你。 社会上最关心的就是程序员身体状况 其实我们的工作很简单 最后总结 如果大家感觉文章好记得转发+右下角给个在看。 作者最近5篇精彩文章回顾 1. 最新中台架构PPT,一起欣赏6位互联网大佬的架构图 2. 京东高管一天处理四起离职,通过面谈都是95后,他们怎么了? 3. 2019软件大会精选阿里|头条|美团|闲鱼|B站等行业大佬架构图 4. 数据湖如何为企业带来9%的高增长?可否取代数据仓库? 5. Flink根据配置实时计算热门商品TopN 6. 想要月薪3万+,推荐给你9本书籍,买不起,我送你。 关注小晨说数据,获取更多大厂技术干货分享 回复

spark源码系列之累加器实现机制及自定义累加器

限于喜欢 提交于 2020-11-21 02:07:40
一,基本概念 累加器是 Spark 的一种变量,顾名思义该变量只能增加。有以下特点: 1 ,累加器只能在 Driver 端构建及并只能是 Driver 读取结果, Task 只能累加。 2 ,累加器不会改变 Spark Lazy 计算的特点。只会在 Job 触发的时候进行相关累加操作。 3 ,现有累加器的类型。 二,累加器的使用 Driver 端初始化,并在 Action 之后获取值。 val accum = sc.accumulator( 0 , "test Accumulator" ) accum.value Executor 端进行计算 accum += 1 ; 三,累加器的重点类 Class Accumulator extends Accumulable 主要是实现了累加器的初始化及封装了相关的累加器操作方法。同时在类对象构建的时候向我们的 Accumulators 注册了累加器。累加器的 add 操作的返回值类型和我们传入的值类型可以不一样。所以,我们一定要定义好如何累加和合并值。也即 add 方法 object Accumulators: 该方法在 Driver 端管理着我们的累加器,也包含了特定累加器的聚合操作。 trait AccumulatorParam[T] extends AccumulableParam[T, T]: AccumulatorParam 的

【技术猩球】牛人分享:大数据架构师在关注什么?

别说谁变了你拦得住时间么 提交于 2020-11-21 01:49:25
在一个大数据团队中,大数据架构师主要关注的 核心问题就是技术架构选型问题 。架构选型问题一般会受到哪些因素的影响呢?在我们的实践中,一般大数据领域架构选型最受以下几个因素影响: 数据量级 这一点在大数据领域尤其是一个重要的因素。不过从根本上讲,数据量级本身也是一种业务场景的衡量。数据量级的不同往往也就昭示着业务场景的不同。 业务需求 经验丰富的大数据架构师能够从纷繁的业务需求中提炼出核心技术点,根据抽象的技术点选择合适的技术架构。主要的业务需求可能包括:应用实时性要求、查询的维度和灵活程度、多租户、安全审计需求等等。 维护成本 这一点上大数据架构师一方面要能够清楚的了解各种大数据技术栈的优劣势,在满足业务需求的要求下,能够充分的优化架构,合理的架构能够降低维护的成本,提升开发的效率。 另一方面, 大数据架构师要能清楚的了解自己团队成员,能了解其他同学的技术专长和品位,能够保证自己做的技术架构可以得到认可和理解,也能得到最好的维护和发展。 接下来我们会围绕这几个方面去看看,做一个最适合自己团队业务的架构选型会如何受到这些因素的影响? 技术架构选型 业务需求是五花八门的,往往影响我们做技术选型的不是种种需求的细节,而是经过提炼后的一些具体的场景。就好比,业务需求提出我们要做一个日志分析系统,或者要做一个用户行为分析系统,这些具体需求背后我们要关注哪些具体的点?这是一个很有趣的问题

使用 .NET 5 体验大数据和机器学习

a 夏天 提交于 2020-11-20 16:26:36
2020 中国.NET 开发者峰会正式启动 ,欢迎大家提交演讲主题或者购买超级早鸟票。 翻译:精致码农-王亮 原文:http://dwz.win/XnM .NET 5 旨在提供统一的运行时和框架,使其在各平台都有统一的运行时行为和开发体验。微软发布了与 .NET 协作的大数据(.NET for Spark)和机器学习(ML.NET)工具,这些工具共同提供了富有成效的端到端体验。在本文中,我们将介绍 .NET for Spark、大数据、ML.NET 和机器学习的基础知识,我们将研究其 API 和功能,向你展示如何开始构建和消费你自己的 Spark 作业和 ML.NET 模型。 什么是大数据 大数据是一个几乎不言自明的行业术语。该术语指的是大型数据集,通常涉及 TB 甚至 PB 级的信息,这些数据集被用作分析的输入,以揭示数据中的模式和趋势。大数据与传统工作负载之间的关键区别在于,大数据往往过于庞大、复杂或多变,传统数据库和应用程序无法处理。一种流行的数据分类方式被称为 "3V"(译注:即3个V,Volume 容量、Velocity 速度、Variety 多样性)。 大数据解决方案是为适应高容量、处理复杂多样的数据结构而定制的,并通过批处理(静态)和流处理(动态)来管理速度。 大多数大数据解决方案都提供了在数据仓库中存储数据的方式

数据仓库①:数据仓库概述

风格不统一 提交于 2020-11-20 07:43:50
前言 阅读本文前,请先回答下面两个问题: 1. 数据库和数据仓库有什么区别? 2. 某大公司Hadoop Hive里的关系表不完全满足完整/参照性约束,也不完全满足范式要求,甚至第一范式都不满足。这种情况正常吗? 如果您不能五秒内给出答案,那么本文应该是对您有帮助的。 注:如果您还不清楚完整参照性约束,请参考 《数据库关系建模》 :,如果您还不了解范式,请参考 《更新异常与规范化设计》 。 数据库的"分家" 随着关系数据库理论的提出,诞生了一系列经典的RDBMS,如Oracle,MySQL,SQL Server等。这些RDBMS被成功推向市场,并为社会信息化的发展做出的重大贡献。然而随着数据库使用范围的不断扩大,它被逐步划分为两大基本类型: 1. 操作型数据库 主要用于 业务支撑 。一个公司往往会使用并维护若干个数据库,这些数据库保存着公司的日常操作数据,比如商品购买、酒店预订、学生成绩录入等; 2. 分析型数据库 主要用于 历史数据分析 。这类数据库作为公司的单独数据存储,负责利用历史数据对公司各主题域进行统计分析; 那么为什么要"分家"?在一起不合适吗?能不能构建一个同样适用于操作和分析的统一数据库? 答案是NO。一个显然的原因是它们会"打架"......如果操作型任务和分析型任务抢资源怎么办呢?再者,它们有太多不同,以致于早已"貌合神离"。接下来看看它们到底有哪些不同吧。

在 Ubuntu16.04 中搭建 Spark 单机开发环境 (JDK + Scala + Spark)

只愿长相守 提交于 2020-11-20 07:34:06
1.准备 本文主要讲述如何在Ubuntu 16.04 中搭建 Spark 2.11 单机开发环境,主要分为 3 部分:JDK 安装,Scala 安装和 Spark 安装。 JDK 1.8: jdk-8u171-linux-x64.tar.gz Scala 11.12: Scala 2.11.12 Spark 2.2.1: spark-2.2.1-bin-hadoop2.7.tgz 需要注意的是,Spark 版本与 Scala 版本需要匹配一致。 Note: Starting version 2.0, Spark is built with Scala 2.11 by default. Scala 2.10 users should download the Spark source package and build with Scala 2.10 support. 2.JDK 安装 下载 jdk-8u171-linux-x64.tar.gz 后,解压到自己指定目录。 $ sudo mkdir /usr/local/java $ sudo tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/local/java 配置环境变量,打开 profile 文件 $ sudo gedit /etc/profile 在文件末尾写入,注意 JAVA_HOME

11月最新出台!阿里内部PPT涵盖研发篇、算法篇、Java后端架构、spring、微服务、分布式等

 ̄綄美尐妖づ 提交于 2020-11-19 20:22:26
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 需要免费领取阿里全部资料的朋友麻烦帮忙转发一下文章+评论+收藏+关注我,然后加小猪理VX:wjj2632646 研发篇部分截图一览,感谢大佬们的分享 算法篇部分截图一览,直接上目录 机器算法大集合 PPT内容还有很多!涵盖阿里巴巴的全部技术栈! 需要免费领取阿里全部资料的朋友麻烦帮忙转发一下文章+评论+收藏+关注我,然后加小猪理VX:wjj2632646 阿里巴巴开发手册1.4.0(终极版) 编程规约 异常日志 单元测试 安全规约 MySQL数据库 工程结构 Java核心知识PDF JVM JAVA集合 JAVA多线程并发 JAVA基础 Spring 原理 微服务 Netty与RPC 网络 日志 Zookeeper Kafka Rabbi tMQ Hbase MongoDB Cassandra 设计模式 负载均衡 数据库 一致性算法 JAVA算法 数据结构 加密算法 分布式缓存 Hadoop Spark Storm YARN

巨鲸任务调度平台

让人想犯罪 __ 提交于 2020-11-18 18:26:24
Big Whale 巨鲸任务调度平台为美柚大数据研发的分布式计算任务调度系统,提供Spark、Flink等批处理任务的DAG执行调度和流处理任务的状态监测调度,并具有重复应用检测、大内存应用检测等功能。 服务基于Spring Boot 2.0开发,打包后即可运行。 [Github] [Gitee] 部署 1.准备 Java 1.8+ Mysql 5.1.0+ 下载项目或git clone项目 为解决 github README.md 图片无法正常加载的问题,请在hosts文件中加入相关域名解析规则,参考: hosts 2.安装 创建数据库:big-whale 运行数据库脚本: big-whale.sql 根据Spring Boot环境,配置相关数据库账号密码,以及SMTP信息 配置: big-whale.properties 配置项说明 ssh.user: 拥有脚本执行权限的ssh远程登录用户名(平台会将该用户作为统一的脚本执行用户) ssh.password: ssh远程登录用户密码 dingding.enabled: 是否开启钉钉告警 dingding.watcher-token: 钉钉公共群机器人Token yarn.app-memory-threshold: Yarn应用内存上限(单位:MB),-1禁用检测 yarn.app-white-list: Yarn应用白名单列表