Apache Spark

奈学教育《大数据开发工程师》课程大纲

时光毁灭记忆、已成空白 提交于 2020-10-16 05:09:09
本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目,把大数据生态技术知识串连起来,让学员形成自己的技术栈,真正成为企业级的大数据开发工程师! 阶段一:小规模数据处理篇 第一单元 掌握Python基础语法 集合类型 条件,循环 文件操作 函数和函数式编程 面向对象 第二单元 掌握NumPy进行数据分析 NumPy基本使用 Numpy进阶知识 第三单元 掌握Pandas进行数据分析 Pandas基础知识 Series数据结构 DataFrame数据结构 综合案例演示 阶段二:中等规模数据处理篇 第四单元 掌握Elastichsearch核心设计 Elastichsearch总体架构设计 Elastichsearch核心流程分析 Elastichsearch核心概念详解 第五单元 掌握Elastichsearch API使用与调优 Elastichsearch语法详解 Elastichsearch容错原理剖析

大数据简介,技术体系分类整理

独自空忆成欢 提交于 2020-10-15 00:44:48
本文源码: GitHub·点这里 || GitEE·点这里 一、大数据简介 1、基础概念 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则主要用来解决海量数据的存储和分析。 2、特点分析 大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 3、发展过程 Google在2004年前后发表的三篇论文,分别是文件系统GFS、计算框架MapReduce、NoSQL数据库系统BigTable。海量数据文件,分析计算,并存储,确立了大数据的基本原理和思路。 天才程序员DougCutting,也是Lucene、Nutch项目发起人。根据Google论文原理初步实现类似GFS和MapReduce的功能,后来发展成为大名鼎鼎的Hadoop。 再后来,Hadoop经过高速的发展,已经形成一个生态体系,基于Hadoop之上,有实时计算,离线计算,NoSQL存储,数据分析,机器学习等一系列内容。 从这一系列事情发展看技术规律:Google业务实践中创造性的提出论文作为基础,业务的成长和需求,迫使技术不断更新换代。所以业务是技术不断发展的关键。 二、Hadoop框架

有赞数据库服务设计与实践-3306π南京站

大憨熊 提交于 2020-10-14 16:35:33
主题 : 「3306π」南京站活动专访 杨奇龙《有赞数据库服务设计与实践》 大纲 : 1、杨老师,一直持续在各个技术方面,为大家输出精彩文章,请问您是如何在工作之余进行的技术总结呢?您的学习方法可否分享给大家? 2、各个企业都在引用开源或者自研数据库服务或平台来进行工作提效,请问杨老师如何量化数据库服务带来的成果呢? 3、请问杨老师,有赞数据库服务的开发团队非常高效,但一般中小企业都会希望DBA本身负责研发相关工作,杨老师可否谈谈您对DBA的定位和发展建议呢? 4、 请问杨老师,一般企业在规划数据库服务平台从0到1过程,您比较推荐哪种模块依次开发的顺序来,实现平台的有效设计和有效推广呢? 分享时间 : 2020年10月17日 13:00-18:00 扫一扫左边二维码, 立刻报名本次活动。 嘉宾自我介绍 杨奇龙 杭州有赞 DBA ,运营公众号yangyidba 。负责有赞数据库架构设计,数据库服务治理,故障诊断等等 01 杨老师,一直持续在各个技术方面,为大家输出精彩文章,请问您是如何在工作之余进行的技术总结呢?您的学习方法可否分享给大家? 关于写文章这件事上可以看出我记得我从2009年5月份在itpub的博客写了第一篇文章,基本一路写到现在,算是兴趣和对技术的坚持吧。平时利用工作的机会收集案例,素材,查看官方文档,网络其他牛人的博客等,利用空余时间 做技术试验测试,然后汇总写写文章

大部分人都不知道!原来今天不只是中秋节,还是程序员节

…衆ロ難τιáo~ 提交于 2020-10-14 10:57:18
今天不但是大家熟知的中秋节,其实也是我们程序员的节日! 程序员节是一个国际上被众多科技公司和软件企业承认的业内人士节日。日期是在每年的第256( 十六进制 为0x100,或28)天,也就是 平年 的9月13日或 闰年 的9月12日。 它是 俄罗斯 的一个官方 节日 ,其他国家的程序员社群也庆祝这个节日。 之所以选择256(28),是因为它是一个被程序员们所熟知的8 比特 基数。用1个 字节 (等于8 比特 )最多能表示256个数值,而且在 平年 中,256是2的最大幂中小于365的值。与此同时,也有人提出象征2的10次方的10月24日才是程序员日。 也有人提出将10月10日作为程序员日,因为在计算机世界中,文件都是由1和0这两个二进制数字组成的。中国有人定10月24日为程序员节,因2的10次方 = 1024。 祝大家中秋节和程序员节快乐。 新福利: 从9月11日开始至10月15日截止,一共五周时间,每周二我会从公众号底部留言互动最多的读者中抽取一名读者,免费包邮送实体新书《HBase原理与实践》,留言互动起来吧~ 猜你喜欢 1、 七问Redis,才知道我与技术大牛的差距在哪里 2、 这可能是学习 Spark Delta Lake 最全的资料 3、 基于 MySQL Binlog 的 Elasticsearch 数据同步实践 4、 大数据面试知识图谱 扫码关注我们 过往记忆大数据

2020 数据分析岗位报告:数据分析师需要哪些能力?

ぃ、小莉子 提交于 2020-10-14 05:59:23
来源:艺术设计与人工智能 本文 约3100字 ,建议 阅读6分钟 本文为你介绍数据分析师需要哪些能力并找到了几个重要问题的答案。 译者 Arthur 的翻译作品。 英语原文《 Know What Employers are expecting for a Data Scientist Role in-2020 》。 最近,我积极地开始找一份数据科学的工作,我没有任何AI/机器学习的硕士或博士的正规教育背景。我开始学习它完全是出于自己的兴趣(不仅仅是因为炒作)。特别当你同时在做一些其他的技术工作时,这是一个很有挑战性的选择。我通过报名参加了许多mooc(大规模在线开放课程),开始了我的旅程,并开始阅读多个博客。最初,它没有什么意义,最终在阅读了别人的代码并接触了实时数据集之后。它慢慢开始变得有意义。 当我开始找工作时,又发生了一个有趣的故事。我在印度打开了一个顶级招聘门户寻找工作,我发现很少有工作与我寻找的相关,但当我打开其中一个,令我惊讶的是,他们提到的要求对我来说是新的。除了传统的数据分析、机器学习和深度学习之外,一些ETL工具和多种大数据技术作为需要的技能被提到。我认为这是可以的,因为现在每个公司都有自己对数据科学家的定义,并且开放了新的工作。这一次,它显示需要一些其他技术,如AWS、Azure和Power BI。 记住,所有这些空缺岗位都只标记在Data scientist下

干货!一文看Doris在作业帮实时数仓中的应用&实践

牧云@^-^@ 提交于 2020-10-10 04:18:37
数据驱动未来。在大数据生态中,数据分析系统在数据创造价值过程中起着非常关键的作用,直接影响业务决策效率以及决策质量。Apache Doris作为一款支持对海量大数据进行快速分析的MPP数据库,在数据分析领域有着简单易用、高性能等优点。 9月20日,Apache Doris组织了一场线上Meetup,作业帮受邀参加,并带来了一场《Doris在作业帮实时数仓中的应用&实践》的主题分享。 现场分享精华 大家下午好。下面我来介绍下Doris在作业帮实时数仓中的应用与实践。 这次的分享主要分三个主题 1、首先是所在团队的业务与背景介绍 2、其次会介绍下基于Doris,作业帮的查询系统是如何构建的,以及主要解决的问题 3、未来的规划 我所在团队是作业帮大数据团队,主要负责建设公司级数仓,向各个产品线提供面向业务的数据信息,如到课时长、答题情况等业务数据以及如pv、uv、活跃等流量类数据,服务于拉新、教学、BI等多个重要业务线。 在数仓体系中,大数据团队主要负责到ODS-DWS的建设,从DWS到ADS一般是数仓系统和业务线系统的边界。 在过去,由于缺失有效、统一的查询系统,我们探索了很多模式来支持各个业务线发展。 有些业务线对大数据相关技术比较了解,熟悉spark等计算系统,可以自己处理计算。因此会选用kafka 接收数据后使用spark计算的模式来对接大数据团队

Spark优化之小文件是否需要合并?

微笑、不失礼 提交于 2020-10-09 06:07:10
我们知道,大部分Spark计算都是在内存中完成的,所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。Spark的性能,想要它快,就得充分利用好系统资源,尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内存占用,例如将小文件进行合并的操作。 一、问题现象 我们有一个15万条总数据量133MB的表,使用SELECT * FROM bi.dwd_tbl_conf_info全表查询耗时3min,另外一个500万条总数据量6.3G的表ods_tbl_conf_detail,查询耗时23秒。两张表均为列式存储的表。 大表查询快,而小表反而查询慢了,为什么会产生如此奇怪的现象呢? 二、问题探询 数据量6.3G的表查询耗时23秒,反而数据量133MB的小表查询耗时3min,这非常奇怪。我们收集了对应的建表语句,发现两者没有太大的差异,大部分为String,两表的列数也相差不大。 CREATE TABLE IF NOT EXISTS `bi`.`dwd_tbl_conf_info` ( `corp_id` STRING COMMENT '', `dept_uuid` STRING COMMENT '', `user_id` STRING COMMENT '', `user_name` STRING COMMENT

大数据组件实操

痴心易碎 提交于 2020-10-08 02:31:47
大数据组件实操,选择流行的大数据组件: Spark,airflow,zeppelin,ELK三剑客 今天开始实操airflow的使用。 来源: oschina 链接: https://my.oschina.net/u/778683/blog/4297897

奈学教育《大数据架构师》课程大纲

独自空忆成欢 提交于 2020-10-07 07:09:37
深度剖析了各个基础技术的源码(ZooKeeper、Hive、Spark、Flink、Hadoop等),对这些基础技 术知识动态的排列组合,形成大数据全局架构观,并深入讲述大数据全局架构设计的方方面面,打 造真正满足企业万亿级海量数据规模的数据中台,真正赋能前台业务。同时,在企业万亿级真实项 目落地环节,采用高性能、高可用、高扩展的架构设计原则,技术上更是融合了企业级主流的离线 架构和实时架构,带领大家构建PB级的大数据中台,真正落地“企业千亿级的数据仓库中台”,实现 “企业级数据中心平台”,搞定“企业千亿级广告统一数据流智能分析平台”,掌握“企业级Hadoop平 台全方位二次源码开发”,让学员面对企业各种海量复杂业务场景,给出优雅的大数据架构设计方 案,从而真正成为企业级大数据架构师! ​ 第一阶段:分布式协调组件 第一单元 掌握ZooKeeper的核心设计 ZooKeeper生态体系结构 ZooKeeper总体架构设计 ZooKeeper读写请求流程深度剖析 第二单元 掌握ZooKeeper服务端源码流程 ZooKeeper启动流程源码深度剖析 Master选举算法源码深度剖析 服务端通信模型源码深度剖析 第三单元 掌握ZooKeeper客户端源码流程 客户端启动流程源码剖析 客户端通信模型源码剖析 Session管理机制源码剖析 第四单元 掌握ZooKeeper企业应用

RA Team:让 TiDB 插上“实时分析”的翅膀| PingCAP 招聘季

旧时模样 提交于 2020-10-07 04:50:34
这是一个 RA 组招聘文章,但是这里所说的都将是非常坦诚的。RA 是 Real-time Analytics 的缩写。是的,我们负责 TiDB 的实时分析场景,与传统的数仓方案不同,TiDB 的分析能力更偏向于实时场景。 **TiDB 一直的定位是 HTAP ,即拥有 Hydrid Transactional / Analytical Processing 能力的数据库。**不过,不管怎么说,它都是一个源于 TP 场景的产品,而 AP 部分则是处在不断探索和完善的过程中。从最初没有独立的项目,到借助明星项目人气的 TiSpark,到现在整体分析场景架构初步成型。随着公司的不断壮大,我们逐步理清了实时分析方面的产品方向。之前在 DTCC 2019 的讲稿 《TiDB 的 HTAP 之路》算是原原本本说了这一路我们的困扰和努力,有兴趣了解 TiDB 分析场景的同学可以看看。 随着 TiDB 4.0 列存引擎 TiFlash 发布 ,我们从来没有如此确信,这条路虽然还很漫长,但却是正确的。 TiFlash 和 TiSpark TiSpark 是我们很早就推出的 Spark 连接器,通过深度对接 Spark Extension,我们能从 Spark 的 Parsing,Meta Resolution 一直到 Plan 插入算子,全程修改 Spark 的行为逻辑。它不但是 TiDB 体系下