Apache Spark

数据湖存储架构选型

跟風遠走 提交于 2020-11-28 01:01:32
作者简介 郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产品。 一、数据湖是个潮流 简单来讲,数据湖的理念就是说从一个企业的视角来讲,把整个数据集中的统一的存储在一起,主要通过 BI 和 AI 的手段来计算分析原始的数据。数据的类型不光是结构化、半结构化的,还包括音视频,这样的一些材料。 我们为什么要基于数据湖来做这样的一个转型呢,数据湖能够给我们带来什么样的好处呢。 第一,打破数据孤岛。就是说原始的数据我们先不考虑怎么去处理它、分析它,甚至是说我们先不考虑它到底会不会解决很大的业务上面的问题,我们先把它放在一起,打破数据孤岛,为后面的业务发展演化和计算,可能就提供了很好的一个机会。 第二,基于统一的、集中的整个数据的收集,可以支持各种各样的计算。 第三,弹性。我们数据湖本身是有弹性的,然后支持的计算也是有弹性的。弹性可能在云上面带来成本的很大的伸缩性的空间,为我们优化存储和计算的成本带来了这样一个可能。 第四,管理。我们把数据放在一起,可以提供统一的、集中的这样一个管理控制。 熟悉 Hadoop 整个生态的话,过去经常会谈到一个非常大的、非常复杂的生态的大图。那个图里面涉及到非常多的组件,结构关系非常复杂。而基于数据湖的架构

【大数据】开学季当当计算机图书大促

谁说胖子不能爱 提交于 2020-11-27 09:03:51
开学季 当当网计算机图书大促 >> 每满100减50 << 满200减100 满300减150 满400减200 不止如此!秉持绝不让大家多花一分钱的精神 机械工业出版社华章公司 联合 大数据技术与架构 特别送出一批优惠码 “实付满200减40” 可以和满减活动 叠加 使用 优惠码使用后相当于 花160买400的书! 超低门槛!超大力度!快快上车! 优惠码: ZCARNK (长按复制) 使用渠道:当当小程序或当当APP 有效期: 8月24日至9月6日 使用方法: 步骤一 , 长按下面二维码 , 直达专题, 挑选图 书至购物车,点击结算 步骤二 ,点击“ 优惠券/码处 ” 步骤三 ,输入优惠码 ZCARNK (注意要大写) 适用范围:全场当当自营图书(教材、考试类除外) 选书太纠结?推荐几本必买的好书新书 助你囤的疯狂、读的畅快,绝不后悔! 推荐书单 01 《Flink原理、实战与性能优化》 推荐语: 这是一部以实战为导向,能指导读者零基础掌握Flink并快速完成进阶的著作,从功能、原理、实战和调优等4个维度循序渐进地讲解了如何利用Flink进行分布式流式应用开发。 02 《数据挖掘与数据化运营实战:思路、方法、技巧与应用》 推荐语: 阿里巴巴BI部门数据分析专家卢辉多年数据挖掘应用实践经验结晶,以大案例展现了数据挖掘与数据化运营的商业实践。 03 《企业级大数据平台构建:架构与实现

献给迷茫的你!

别说谁变了你拦得住时间么 提交于 2020-11-26 03:51:13
最近,也有粉丝问浪尖,很迷茫怎么办? 刚学习大数据,刚入门很迷茫! 搞了一两年了,不知从哪深入,很迷茫? 浪尖也是从零走过来的,只是比较幸运遇到了不错的领导和同事,然后自己坚持学习,测试,分析,总结,才一步步积累到今天的经验。 那么,学习,工作过程中迷茫该怎么办? 浪尖说的话就只有两个字— 坚持 !!! 刚入行,刚学习你迷茫,建议你坚持翻译几遍官网,比如spark官网,hive官网。有权威指南的比如hadoop权威指南,hive编程指南,都细致的看几遍。 细致了解框架能做啥,咋用,原理,调优点是啥等等。也可以弥补了知识盲点。 英文非常弱,你可以在某宝搜集大量视频,统统浏览一遍,总结共性和差异,收获也会很大。 坚持看英文官网很枯燥,比如浪尖最近看的janusgraph官网,也觉得无聊,看了忘,那就看一遍,然后整理一遍成文档,然后再总结为自己的知识。 坚持到最后发现基本都很细致的了解了框架,百度得到的知识都是渣渣(除了浪尖的文章)。 假如你已经有了些经验,然后迷茫,我觉得这时候可以什么都不想,去坚持看一个框架的源码,坚持他一年半载,而不是左顾右盼,左看右看,到最后什么都没搞成。 坚持到最后,你可能会养成好的源码阅读习惯和阅读思路,学习了别人的代码,细致了解了底层,这样还愁不会调优吗? 不积跬步无以至千里,不积小流无以成江河。 道理简单,不知道你能否力行,或许人跟人区别在此吧。

秘密武器 | 看AnalyticDB如何强力支撑双十一

做~自己de王妃 提交于 2020-11-25 11:48:39
前言 每年双十一购物狂欢节都是云原生数据仓库AnalyticDB MySQL版(原分析型数据库MySQL版)的一块试金石。今年AnalyticDB除了在阿里数字经济体内进入更多核心交易链路,全力支撑双十一以外,AnalyticDB全面拥抱云原生,构建极致弹性,大幅降低成本,释放技术红利,重磅发布了诸多全新企业级特性,让用户及时拥有极高性价比的云原生数据仓库。 云原生数据仓库AnalyticDB 云原生数据仓库AnalyticDB是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:2003 语法标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库,实现数据价值的在线化。 AnalyticDB全面覆盖数据仓库场景,包括报表查询、在线分析、实时数仓、ETL等,应用范围广。AnalyticDB兼容MySQL和传统数据仓库生态,使用门槛低。 AnalyticDB全力支撑双十一 2020年双十一,AnalyticDB支持了阿里数字经济体内几乎所有BU的业务,承载了集团的菜鸟、新零售供应链、DT数据系列产品、数据银行、生意参谋、人群宝、达摩院店小蜜、AE数据、盒马、天猫营销平台等130多个主要业务。从核心交易链路的高并发在线检索到复杂实时分析应用场景,表现非常稳定。当天各项指标再创新高,AnalyticDB当天的写入TPS峰值到达2

2020大数据面试题真题总结(附答案)

怎甘沉沦 提交于 2020-11-24 15:57:03
版本 更新时间 更新内容 v1.0 2020-07-01 新建 v1.1 2020-06-13 朋友面试大数据工程师提供的关于架构及数仓方面的题目 v1.2 2020-08-08 朋友面试数据专家提供的数据驱动,spark及flink方面面试题 v1.3 2020-08-22 朋友面试数据开发提供的关于hive及数仓方面的题目 一.Hadoop 1.hdfs写流程 2.hdfs读流程 3.hdfs的体系结构 4.一个datanode 宕机,怎么一个流程恢复 5.hadoop 的 namenode 宕机,怎么解决 6.namenode对元数据的管理 7.元数据的checkpoint 8.yarn资源调度流程 9.hadoop中combiner和partition的作用 10.用mapreduce怎么处理数据倾斜问题? 11.shuffle 阶段,你怎么理解的 12.Mapreduce 的 map 数量 和 reduce 数量是由什么决定的 ,怎么配置 13.MapReduce优化经验 14.分别举例什么情况要使用 combiner,什么情况不使用? 15.MR运行流程解析 16.简单描述一下HDFS的系统架构,怎么保证数据安全? 17.在通过客户端向hdfs中写数据的时候,如果某一台机器宕机了,会怎么处理 18.Hadoop优化有哪些方面 19.大量数据求topN

MaxCompute Spark开发指南

人盡茶涼 提交于 2020-11-24 10:29:24
0. 概述 本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务,它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作业,以满足更丰富的数据处理分析场景。 本文将重点介绍MaxCompute Spark能够支撑的应用场景,同时说明开发的依赖条件和环境准备,重点对Spark作业开发、提交到MaxCompute集群执行、诊断进行介绍。 1. 前提条件 MaxCompute Spark是阿里云提供的Spark on MaxCompute的解决方案,能够让Spark应用运行在托管的MaxCompute计算环境中。为了能够在MaxCompute环境中安全地运行Spark作业,MaxCompute提供了以下SDK和MaxCompute Spark定制发布包。 SDK定位于开源应用接入MaxCompute SDK: 提供了集成所需的API说明以及相关功能Demo,用户可以基于项目提供的Spark-1.x以及Spark-2.x的example项目构建自己的应用,并且提交到MaxCompute集群上。 MaxCompute Spark客户端发布包:

0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业(续)

点点圈 提交于 2020-11-24 06:52:53
文档编写目的 在前面的文章《 如何在集群外节点跨网段向HDFS写数据 》和《 外部客户端跨网段访问Hadoop集群方式(续) 》中介绍了如何在集群外的客户端节点上访问Hadoop集群,本篇文章在前面文章的基础上基于Kerberos环境的CDH集群介绍,如何在集群外客户端跨网段向Kerberos环境的Hadoop集群提交MapReduce和Spark作业。 测试环境 1.Redhat7.4 2.CDH5.16.1 3.集群已启用Kerberos 修改HDFS配置 1.进入HDFS服务的配置页面 2.在搜索栏输入“bind”勾选如下配置,将各服务的端口号绑定到0.0.0.0 3.搜索“core-site.xml”在高级配置项增加如下配置 < property > < name > hadoop.security.token.service.use_ip </ name > < value > false </ value > </ property > 4.搜索“hdfs-site.xml”在高级配置项增加如下配置 < property > < name > dfs.client.use.datanode.hostname </ name > < value > true </ value > </ property > 注意:该配置属于HDFS的Gateway角色高级参数

Spark在MaxCompute的运行方式

泪湿孤枕 提交于 2020-11-24 03:37:28
一、Spark系统概述 左侧是原生Spark的架构图,右边Spark on MaxCompute运行在阿里云自研的Cupid的平台之上,该平台可以原生支持开源社区Yarn所支持的计算框架,如Spark等。 二、Spark运行在客户端的配置和使用 2.1打开链接下载客户端到本地 http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0-odps0.30.0/spark-2.3.0-odps0.30.0.tar.gz?spm=a2c4g.11186623.2.12.666a4b69yO8Qur&file=spark-2.3.0-odps0.30.0.tar.gz 2.2将文件上传的ECS上 2.3将文件解压 tar -zxvf spark-2.3.0-odps0.30.0.tar.gz 2.4配置Spark-default.conf # spark-defaults.conf # 一般来说默认的template只需要再填上MaxCompute相关的账号信息就可以使用Spark spark.hadoop.odps.project.name = spark.hadoop.odps.access.id = spark.hadoop.odps.access.key = # 其他的配置保持自带值一般就可以了 spark.hadoop

当当图书,我不客气了。

℡╲_俬逩灬. 提交于 2020-11-24 03:16:49
囤书囤书 薅当当网羊毛的机会又双叒叕来了! 6月年中庆当当百万自营图书 >> 每满100减50 << >> 每满200减100 << >> 每满300减150 << >> 满400减200 << 等等,还不止半折!!! 机械工业出版社 联合当当网特为【 机器学习与生成对抗网络 】用户申请了一批 可与满减叠加使用的 「满150减30”」 的图书优惠码,优惠码使用后相当于: 花120元买300元的书! 比历次优惠码 力度更大! 硬核技术书, 4折优惠! 所以这一波优惠,不要错过! 优惠码: 【 CAWY3S 】 (注意区分大小写,建议选中复制) 使用时间: 2020年6月9日至6月20日 使用渠道: 当当APP和当当小程序 使用条件 : 原有的满减核算后,得出的实际消费金额总价如果超过150元即可以用优惠码再减30。 本活动满减与礼券均不支持团购,同一账号、同一地址、同一手机号、同一IP反复购买本活动商品,当当有权取消订单,终结交易。 操作方法 1、长按识别下方小程序码,界面已有推荐, 可自行搜索任意心仪图书!!! 2、在结算付款界面,点击优惠券/码,输入优惠码(如下图所示)。 这个环节,总共分三步 促销优惠只是手段 为大家的学习之路提供薅羊毛的便利才是目的 下面我们为大家推荐几本值得一看的好书 (识别小程序码,可查看详情) 作者:陈红波 刘顺祥 等 关键词:Excel,MySQL

1024程序员节!

余生颓废 提交于 2020-11-24 00:00:19
程序员之歌 在那山的那边海的那边有一群程序猿 他们老实又腼腆 他们聪明又有钱 他们一天到晚坐在那里认真地改bug 他们饿了就吃一口方便面 噢~ 可爱的程序员~ 可爱的程序员~ 只要一提需求他们就要重新改一遍 可是时间只剩下最后一天 当这首歌声响起的时候 10.24到了 猿媛专属节日来了 在这个节日 拒绝On Call 24小时 告别debug 是时候在各路需求bug中忙里偷闲 收割一波专供程序员“充电”的惊喜了 薅当当网羊毛的机会又双叒叕来了! 1024程序员节,当当百万自营图书 >> 每满100减50 << >> 每满200减100 << >> 每满300减150 << >> 满400减200 << 以为只有这样了么?我们的原则是——让大家省钱省到家! 机械工业出版社 联合当当网特意为【 机器学习与生成对抗网络 】用户申请了一批 可与满减叠加使用的 「满200减40”」 的图书优惠码,优惠码使用后相当于: 花160元买400元的书! 用160块就可以买到原价400元(大约四五本)的硬核技术书, 4折优惠! 所以这一波优惠,不要错过! 优惠码: 【 EQHTMX 】 (注意区分大小写,建议点击选中复制) 使用时间: 2020年10月20日至11月03日 使用渠道: 当当APP和当当小程序 使用条件 :原有的满减核算后,得出的实际消费金额总价如果超过200元即可以用优惠码再减40。