Hadoop

美团架构师总结整理的这份GitHub标星150K+的神仙笔记,我花了两个月肝完成功面进了阿里定级P7,现在分享出来希望大家也能有所提升!

白昼怎懂夜的黑 提交于 2020-11-29 11:23:14
俗话说:不想进大厂的程序员不是好程序员 楼主14年小本毕业。离职也有一段时间了,因为一些原因,休整了一段时间。然后3月初开始准备面试(在上家公司工作之余心里一直有着进大厂的执念)。上家公司是智能家居互联网行业的,使用的技术框架有dubbo、zookeeper、mybatis、springMVC、redis等,数据库是用的mysql。我们主要是java后端开发的,感觉上家公司没啥发展前景了就想着在 金三银四 之际把握机会。但是自身的知识范围不是很广泛,在数据库原理性的知识和sql语句(比如存储过程、触发器)、并发框架dubbo原理性的东西、各个流行框架原理性的东西都比较薄弱和网络编程这块完全抓瞎,主要平时太关注业务了,没有去及时充充电。在面试屡屡碰壁后,沉下心来恶补了一遍java后端的全栈知识,目前还算幸运成功面进阿里。 本着好东西就要拿出来分享的原则,下面我就把我几个月一直在用的PDF文档分享出来给大家,希望对大家有所帮助。 这本PDF总共有30章涵盖了JVM、多线程并发、Spring原理、微服务、Zookeeper、Kafka、算法、RabbitMQ、设计模式、数据结构、Hadoop、Spark、Netty 与RPC等核心知识点。 一键三连+评论,然后添加VX(tkzl6666)即可免费领取这份神仙笔记 主要内容: 目录总述 JVM JVM 是可运行 Java 代码的假想计算机

在local模式下的spark程序打包到集群上运行

萝らか妹 提交于 2020-11-28 08:26:38
一、前期准备   前期的环境准备,在Linux系统下要有Hadoop系统,spark伪分布式或者分布式,具体的教程可以查阅我的这两篇博客: Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分布式环境搭建   然后在spark伪分布式的环境下必须出现如下八个节点才算spark环境搭建好。      然后再在本地windows系统下有一个简单的词频统计程序。 import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD object ScalaSparkDemo { def main(args: Array[String]) { /** * 第一步:创建Spark的配置对象SparkConf,设置Spark程序的运行时的配置信息, * 例如说通过setMaster来设置程序要连接的Spark集群的Master的URL, * 如果设置为local,则代表Spark程序在本地运行,特别适合于机器配置条件非常差 * (例如只有1G的内存)的初学者 */ val conf = new SparkConf() //创建SparkConf对象,由于全局只有一个SparkConf所以不需要工厂方法 conf.setAppName("wow,my

大数据架构师拿年薪50W的方法诀窍

房东的猫 提交于 2020-11-28 01:50:52
什么是 大数据 架构师 : 围绕大 数据 系 平台 系统 级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用 算法 , 熟练掌握Hadoop整个生态系统的 组件 如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。我是一个大数据程序员,建了一个大数据资源共享群593188212 每天分享大数据学习资料和学习方法 ,现在分享一下专业知识 一.作为企业架构师,我们为什么需要构建数据 结构 ? 数据结构主要有以下内容: 1)数据标准不一致 2)数据模型管理混乱 3)深入的 性能 的问题无法解决 4)SQL语句编写水平不高导致出现严重性能问题 5)开发人员对执行计划收悉 6)上线前缺乏审计 7)相对复杂的数据处理能力欠缺 8)数据质量差需要执行数据质量管理 数据是客户的财富,虽然对于我们开发人员一文不值,在客户那里就是无价之宝,保障数据的完成性,安全性,可靠性, 二.作为一名数据架构师所掌握职责和技术 创建数据管理系统进行整合,集中,保护和维护数据源 必备语言:java,SQL,XML,HIVE,PIG,SPARK 技能和特长:数据仓库解决方案 , 深入了解数据库体系结构 , 提取thansformation

数据湖存储架构选型

跟風遠走 提交于 2020-11-28 01:01:32
作者简介 郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产品。 一、数据湖是个潮流 简单来讲,数据湖的理念就是说从一个企业的视角来讲,把整个数据集中的统一的存储在一起,主要通过 BI 和 AI 的手段来计算分析原始的数据。数据的类型不光是结构化、半结构化的,还包括音视频,这样的一些材料。 我们为什么要基于数据湖来做这样的一个转型呢,数据湖能够给我们带来什么样的好处呢。 第一,打破数据孤岛。就是说原始的数据我们先不考虑怎么去处理它、分析它,甚至是说我们先不考虑它到底会不会解决很大的业务上面的问题,我们先把它放在一起,打破数据孤岛,为后面的业务发展演化和计算,可能就提供了很好的一个机会。 第二,基于统一的、集中的整个数据的收集,可以支持各种各样的计算。 第三,弹性。我们数据湖本身是有弹性的,然后支持的计算也是有弹性的。弹性可能在云上面带来成本的很大的伸缩性的空间,为我们优化存储和计算的成本带来了这样一个可能。 第四,管理。我们把数据放在一起,可以提供统一的、集中的这样一个管理控制。 熟悉 Hadoop 整个生态的话,过去经常会谈到一个非常大的、非常复杂的生态的大图。那个图里面涉及到非常多的组件,结构关系非常复杂。而基于数据湖的架构

hive之SQL

眉间皱痕 提交于 2020-11-27 04:55:41
提示:查看学习SQL主要通过官网 输入hive.apache.org进入hive的官网。 点击Hive Wiki 进入一个界面选择DDL或者DML选择你需要的进行语法查询 一)、DDL:CREATE/DROP/ALTER/MSCK/SHOW/DESCRIBE CREATE (DATABASE|SCHEMA 2选一 ) [IF NOT EXISTS 可有可无 ] database_name( 必须存在 ) [COMMENT database_comment] [LOCATION hdfs_path] ) [WITH DBPROPERTIES (property_name=property_value, ...)]; 1.CREATE DATABASE hive; 创建一个database 名字叫hive 提问:hive这个库建立起来以后存在于哪里?如何查看? 答:desc database hive; 查看hive的默认目录 hdfs://hadoop001:9000/user/hive/warehouse/hive.db hdfs://hadoop001:9000: HDFS目录 /user/hive/warehouse/ :默认的hive存储在HDFS上的目录 hive.metastore.warehouse.dir hive的元数据metastorede

讲述5G+AI 阿里文娱技术实践

。_饼干妹妹 提交于 2020-11-26 17:29:46
今天跟大家分享的是5G+AI 阿里文娱技术实践, 下拉文末获取网盘链接 1.优酷发布窄带高清 3.0,用户看片流量再省 30% 2.内容全生命周期里的文娱大脑 3.5G 下的 6DoF 视频技术,到底有何不同? 4.大麦物联网技术实践:挑战、解法、趋势 5.大数据赋能电影数智化宣发 点击链接获取完整文档 链接: https://pan.baidu.com/s/14HxVx6yjbmz4_2rK_tIUJQ 提取码:m1r8 ※部分文章来源于网络,如有侵权请联系删除;更多文章和资料|点击后方文字直达 ↓↓↓ 100GPython自学资料包 阿里云K8s实战手册 [阿里云CDN排坑指南] CDN ECS运维指南 DevOps实践手册 Hadoop大数据实战手册 Knative云原生应用开发指南 OSS 运维实战手册 云原生架构白皮书 Zabbix企业级分布式监控系统源码文档 10G大厂面试题戳领 来源: oschina 链接: https://my.oschina.net/u/4601114/blog/4751082

这些未在 Spark SQL 文档中说明的优化措施,你知道吗?

偶尔善良 提交于 2020-11-26 14:54:18
​本文来自上周(2020-11-17至2020-11-19)举办的 Data + AI Summit 2020 (原 Spark +AI Summit),主题为《 Spark SQL Beyond Official Documentation》的分享,作者 David Vrba,是 Socialbakers 的高级机器学习工程师。 实现高效的 Spark 应用程序并获得最大的性能为目标,通常需要官方文档之外的知识。理解 Spark 的内部流程和特性有助于根据内部优化设计查询,从而在执行期间实现高效率。在这次演讲中,我们将重点讨论 Spark SQL 的一些官方文档中没有很好描述的内部特性,重点在一些基本示例上解释这些特性,同时分享一些性能技巧。 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号: iteblog_hadoop 本次分享主要有两大主题: Spark SQL 中的统计信息(Statistics) 以排序的方式将数据存储在文件中 Spark SQL 中的统计信息(Statistics) 统计信息这块的分享主要包括以下四个方面: 我们怎么可以看到统计信息 统计信息是如何计算的 统计信息是怎么使用 有什么注意事项? 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号: iteblog_hadoop 在

大数据高端班划重点 hadoop常用四大模块文件

你说的曾经没有我的故事 提交于 2020-11-26 09:34:29
1.core-site.xml(工具模块)。包括Hadoop常用的工具类,由原来的Hadoopcore部分更名… 1.core-site.xml(工具模块)。包括Hadoop常用的工具类,由原来的Hadoopcore部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API。 2.hdfs-site.xml(数据存储模块)。分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问。为Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。 namenode+ datanode + secondarynode 划重点:通过系统实训成为一名起薪保底6K的大数据工程师。通过高效系统的学习路线、紧贴市场需求的技能图谱、紧密及时的答疑辅导,能够帮助学员最快入门、精通掌握技术语言,经过系统的实训顺利毕业并推荐到名企就业,实现人生转型。在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:957205962

献给迷茫的你!

别说谁变了你拦得住时间么 提交于 2020-11-26 03:51:13
最近,也有粉丝问浪尖,很迷茫怎么办? 刚学习大数据,刚入门很迷茫! 搞了一两年了,不知从哪深入,很迷茫? 浪尖也是从零走过来的,只是比较幸运遇到了不错的领导和同事,然后自己坚持学习,测试,分析,总结,才一步步积累到今天的经验。 那么,学习,工作过程中迷茫该怎么办? 浪尖说的话就只有两个字— 坚持 !!! 刚入行,刚学习你迷茫,建议你坚持翻译几遍官网,比如spark官网,hive官网。有权威指南的比如hadoop权威指南,hive编程指南,都细致的看几遍。 细致了解框架能做啥,咋用,原理,调优点是啥等等。也可以弥补了知识盲点。 英文非常弱,你可以在某宝搜集大量视频,统统浏览一遍,总结共性和差异,收获也会很大。 坚持看英文官网很枯燥,比如浪尖最近看的janusgraph官网,也觉得无聊,看了忘,那就看一遍,然后整理一遍成文档,然后再总结为自己的知识。 坚持到最后发现基本都很细致的了解了框架,百度得到的知识都是渣渣(除了浪尖的文章)。 假如你已经有了些经验,然后迷茫,我觉得这时候可以什么都不想,去坚持看一个框架的源码,坚持他一年半载,而不是左顾右盼,左看右看,到最后什么都没搞成。 坚持到最后,你可能会养成好的源码阅读习惯和阅读思路,学习了别人的代码,细致了解了底层,这样还愁不会调优吗? 不积跬步无以至千里,不积小流无以成江河。 道理简单,不知道你能否力行,或许人跟人区别在此吧。