Apache Spark | 易学教程

数据湖存储架构选型

阅读更多关于数据湖存储架构选型

作者简介郑锴，花名铁杰，阿里巴巴高级技术专家，Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年，目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产品。一、数据湖是个潮流简单来讲，数据湖的理念就是说从一个企业的视角来讲，把整个数据集中的统一的存储在一起，主要通过 BI 和 AI 的手段来计算分析原始的数据。数据的类型不光是结构化、半结构化的，还包括音视频，这样的一些材料。我们为什么要基于数据湖来做这样的一个转型呢，数据湖能够给我们带来什么样的好处呢。第一，打破数据孤岛。就是说原始的数据我们先不考虑怎么去处理它、分析它，甚至是说我们先不考虑它到底会不会解决很大的业务上面的问题，我们先把它放在一起，打破数据孤岛，为后面的业务发展演化和计算，可能就提供了很好的一个机会。第二，基于统一的、集中的整个数据的收集，可以支持各种各样的计算。第三，弹性。我们数据湖本身是有弹性的，然后支持的计算也是有弹性的。弹性可能在云上面带来成本的很大的伸缩性的空间，为我们优化存储和计算的成本带来了这样一个可能。第四，管理。我们把数据放在一起，可以提供统一的、集中的这样一个管理控制。熟悉 Hadoop 整个生态的话，过去经常会谈到一个非常大的、非常复杂的生态的大图。那个图里面涉及到非常多的组件，结构关系非常复杂。而基于数据湖的架构

【大数据】开学季当当计算机图书大促

阅读更多关于【大数据】开学季当当计算机图书大促

开学季当当网计算机图书大促 >> 每满100减50 << 满200减100 满300减150 满400减200 不止如此！秉持绝不让大家多花一分钱的精神机械工业出版社华章公司联合大数据技术与架构特别送出一批优惠码 “实付满200减40” 可以和满减活动叠加使用优惠码使用后相当于花160买400的书! 超低门槛！超大力度！快快上车！优惠码： ZCARNK （长按复制）使用渠道：当当小程序或当当APP 有效期： 8月24日至9月6日使用方法：步骤一，长按下面二维码，直达专题，挑选图书至购物车，点击结算步骤二，点击“ 优惠券/码处 ” 步骤三，输入优惠码 ZCARNK （注意要大写）适用范围：全场当当自营图书（教材、考试类除外）选书太纠结？推荐几本必买的好书新书助你囤的疯狂、读的畅快，绝不后悔！推荐书单 01 《Flink原理、实战与性能优化》推荐语：这是一部以实战为导向，能指导读者零基础掌握Flink并快速完成进阶的著作，从功能、原理、实战和调优等4个维度循序渐进地讲解了如何利用Flink进行分布式流式应用开发。 02 《数据挖掘与数据化运营实战：思路、方法、技巧与应用》推荐语：阿里巴巴BI部门数据分析专家卢辉多年数据挖掘应用实践经验结晶，以大案例展现了数据挖掘与数据化运营的商业实践。 03 《企业级大数据平台构建：架构与实现

献给迷茫的你！

阅读更多关于献给迷茫的你！

最近，也有粉丝问浪尖，很迷茫怎么办？刚学习大数据，刚入门很迷茫！搞了一两年了，不知从哪深入，很迷茫？浪尖也是从零走过来的，只是比较幸运遇到了不错的领导和同事，然后自己坚持学习，测试，分析，总结，才一步步积累到今天的经验。那么，学习，工作过程中迷茫该怎么办？浪尖说的话就只有两个字— 坚持！！！刚入行，刚学习你迷茫，建议你坚持翻译几遍官网，比如spark官网，hive官网。有权威指南的比如hadoop权威指南，hive编程指南，都细致的看几遍。细致了解框架能做啥，咋用，原理，调优点是啥等等。也可以弥补了知识盲点。英文非常弱，你可以在某宝搜集大量视频，统统浏览一遍，总结共性和差异，收获也会很大。坚持看英文官网很枯燥，比如浪尖最近看的janusgraph官网，也觉得无聊，看了忘，那就看一遍，然后整理一遍成文档，然后再总结为自己的知识。坚持到最后发现基本都很细致的了解了框架，百度得到的知识都是渣渣（除了浪尖的文章）。假如你已经有了些经验，然后迷茫，我觉得这时候可以什么都不想，去坚持看一个框架的源码，坚持他一年半载，而不是左顾右盼，左看右看，到最后什么都没搞成。坚持到最后，你可能会养成好的源码阅读习惯和阅读思路，学习了别人的代码，细致了解了底层，这样还愁不会调优吗？不积跬步无以至千里，不积小流无以成江河。道理简单，不知道你能否力行，或许人跟人区别在此吧。

秘密武器 | 看AnalyticDB如何强力支撑双十一

阅读更多关于秘密武器 | 看AnalyticDB如何强力支撑双十一

前言每年双十一购物狂欢节都是云原生数据仓库AnalyticDB MySQL版（原分析型数据库MySQL版）的一块试金石。今年AnalyticDB除了在阿里数字经济体内进入更多核心交易链路，全力支撑双十一以外，AnalyticDB全面拥抱云原生，构建极致弹性，大幅降低成本，释放技术红利，重磅发布了诸多全新企业级特性，让用户及时拥有极高性价比的云原生数据仓库。云原生数据仓库AnalyticDB 云原生数据仓库AnalyticDB是一种支持高并发低延时查询的新一代云原生数据仓库，高度兼容MySQL协议以及SQL:2003 语法标准，可以对海量数据进行即时的多维分析透视和业务探索，快速构建企业云上数据仓库，实现数据价值的在线化。 AnalyticDB全面覆盖数据仓库场景，包括报表查询、在线分析、实时数仓、ETL等，应用范围广。AnalyticDB兼容MySQL和传统数据仓库生态，使用门槛低。 AnalyticDB全力支撑双十一 2020年双十一，AnalyticDB支持了阿里数字经济体内几乎所有BU的业务，承载了集团的菜鸟、新零售供应链、DT数据系列产品、数据银行、生意参谋、人群宝、达摩院店小蜜、AE数据、盒马、天猫营销平台等130多个主要业务。从核心交易链路的高并发在线检索到复杂实时分析应用场景，表现非常稳定。当天各项指标再创新高，AnalyticDB当天的写入TPS峰值到达2

2020大数据面试题真题总结(附答案)

阅读更多关于 2020大数据面试题真题总结(附答案)

版本更新时间更新内容 v1.0 2020-07-01 新建 v1.1 2020-06-13 朋友面试大数据工程师提供的关于架构及数仓方面的题目 v1.2 2020-08-08 朋友面试数据专家提供的数据驱动，spark及flink方面面试题 v1.3 2020-08-22 朋友面试数据开发提供的关于hive及数仓方面的题目一.Hadoop 1.hdfs写流程 2.hdfs读流程 3.hdfs的体系结构 4.一个datanode 宕机,怎么一个流程恢复 5.hadoop 的 namenode 宕机,怎么解决 6.namenode对元数据的管理 7.元数据的checkpoint 8.yarn资源调度流程 9.hadoop中combiner和partition的作用 10.用mapreduce怎么处理数据倾斜问题？ 11.shuffle 阶段,你怎么理解的 12.Mapreduce 的 map 数量和 reduce 数量是由什么决定的 ,怎么配置 13.MapReduce优化经验 14.分别举例什么情况要使用 combiner，什么情况不使用？ 15.MR运行流程解析 16.简单描述一下HDFS的系统架构，怎么保证数据安全? 17.在通过客户端向hdfs中写数据的时候，如果某一台机器宕机了，会怎么处理 18.Hadoop优化有哪些方面 19.大量数据求topN

MaxCompute Spark开发指南

阅读更多关于 MaxCompute Spark开发指南

0. 概述本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务，它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持用户以熟悉的开发使用方式提交运行Spark作业，以满足更丰富的数据处理分析场景。本文将重点介绍MaxCompute Spark能够支撑的应用场景，同时说明开发的依赖条件和环境准备，重点对Spark作业开发、提交到MaxCompute集群执行、诊断进行介绍。 1. 前提条件 MaxCompute Spark是阿里云提供的Spark on MaxCompute的解决方案，能够让Spark应用运行在托管的MaxCompute计算环境中。为了能够在MaxCompute环境中安全地运行Spark作业，MaxCompute提供了以下SDK和MaxCompute Spark定制发布包。 SDK定位于开源应用接入MaxCompute SDK：提供了集成所需的API说明以及相关功能Demo，用户可以基于项目提供的Spark-1.x以及Spark-2.x的example项目构建自己的应用，并且提交到MaxCompute集群上。 MaxCompute Spark客户端发布包：

0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业（续）

阅读更多关于 0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业（续）

文档编写目的在前面的文章《如何在集群外节点跨网段向HDFS写数据》和《外部客户端跨网段访问Hadoop集群方式(续) 》中介绍了如何在集群外的客户端节点上访问Hadoop集群，本篇文章在前面文章的基础上基于Kerberos环境的CDH集群介绍，如何在集群外客户端跨网段向Kerberos环境的Hadoop集群提交MapReduce和Spark作业。测试环境 1.Redhat7.4 2.CDH5.16.1 3.集群已启用Kerberos 修改HDFS配置 1.进入HDFS服务的配置页面 2.在搜索栏输入“bind”勾选如下配置，将各服务的端口号绑定到0.0.0.0 3.搜索“core-site.xml”在高级配置项增加如下配置 < property > < name > hadoop.security.token.service.use_ip </ name > < value > false </ value > </ property > 4.搜索“hdfs-site.xml”在高级配置项增加如下配置 < property > < name > dfs.client.use.datanode.hostname </ name > < value > true </ value > </ property > 注意：该配置属于HDFS的Gateway角色高级参数

Spark在MaxCompute的运行方式

阅读更多关于 Spark在MaxCompute的运行方式

一、Spark系统概述左侧是原生Spark的架构图，右边Spark on MaxCompute运行在阿里云自研的Cupid的平台之上，该平台可以原生支持开源社区Yarn所支持的计算框架，如Spark等。二、Spark运行在客户端的配置和使用 2.1打开链接下载客户端到本地 http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0-odps0.30.0/spark-2.3.0-odps0.30.0.tar.gz?spm=a2c4g.11186623.2.12.666a4b69yO8Qur&file=spark-2.3.0-odps0.30.0.tar.gz 2.2将文件上传的ECS上 2.3将文件解压 tar -zxvf spark-2.3.0-odps0.30.0.tar.gz 2.4配置Spark-default.conf # spark-defaults.conf # 一般来说默认的template只需要再填上MaxCompute相关的账号信息就可以使用Spark spark.hadoop.odps.project.name = spark.hadoop.odps.access.id = spark.hadoop.odps.access.key = # 其他的配置保持自带值一般就可以了 spark.hadoop

当当图书，我不客气了。

阅读更多关于当当图书，我不客气了。

囤书囤书薅当当网羊毛的机会又双叒叕来了！ 6月年中庆当当百万自营图书 >> 每满100减50 << >> 每满200减100 << >> 每满300减150 << >> 满400减200 << 等等，还不止半折！！！机械工业出版社联合当当网特为【机器学习与生成对抗网络】用户申请了一批可与满减叠加使用的「满150减30”」的图书优惠码，优惠码使用后相当于：花120元买300元的书！比历次优惠码力度更大！硬核技术书， 4折优惠！所以这一波优惠，不要错过！优惠码：【 CAWY3S 】（注意区分大小写，建议选中复制）使用时间： 2020年6月9日至6月20日使用渠道：当当APP和当当小程序使用条件：原有的满减核算后，得出的实际消费金额总价如果超过150元即可以用优惠码再减30。本活动满减与礼券均不支持团购，同一账号、同一地址、同一手机号、同一IP反复购买本活动商品，当当有权取消订单，终结交易。操作方法 1、长按识别下方小程序码，界面已有推荐，可自行搜索任意心仪图书！！！ 2、在结算付款界面，点击优惠券/码，输入优惠码（如下图所示）。这个环节，总共分三步促销优惠只是手段为大家的学习之路提供薅羊毛的便利才是目的下面我们为大家推荐几本值得一看的好书（识别小程序码，可查看详情）作者：陈红波刘顺祥等关键词：Excel，MySQL

1024程序员节！

阅读更多关于 1024程序员节！

程序员之歌在那山的那边海的那边有一群程序猿他们老实又腼腆他们聪明又有钱他们一天到晚坐在那里认真地改bug 他们饿了就吃一口方便面噢~ 可爱的程序员~ 可爱的程序员~ 只要一提需求他们就要重新改一遍可是时间只剩下最后一天当这首歌声响起的时候 10.24到了猿媛专属节日来了在这个节日拒绝On Call 24小时告别debug 是时候在各路需求bug中忙里偷闲收割一波专供程序员“充电”的惊喜了薅当当网羊毛的机会又双叒叕来了！ 1024程序员节，当当百万自营图书 >> 每满100减50 << >> 每满200减100 << >> 每满300减150 << >> 满400减200 << 以为只有这样了么？我们的原则是——让大家省钱省到家！机械工业出版社联合当当网特意为【机器学习与生成对抗网络】用户申请了一批可与满减叠加使用的「满200减40”」的图书优惠码，优惠码使用后相当于：花160元买400元的书！用160块就可以买到原价400元（大约四五本）的硬核技术书， 4折优惠！所以这一波优惠，不要错过！优惠码：【 EQHTMX 】（注意区分大小写，建议点击选中复制）使用时间： 2020年10月20日至11月03日使用渠道：当当APP和当当小程序使用条件：原有的满减核算后，得出的实际消费金额总价如果超过200元即可以用优惠码再减40。

订阅 Apache Spark