Hadoop

Hadoop-MapReduce基本原理及相关操作

人盡茶涼 提交于 2020-12-24 07:32:42
Hadoop-MapReduce基本原理及相关操作 1、 概述 1. 思考 求和:1+3+5+8+2+7+3+4+9+...+Integer.MAX_VALUE。 这是一个简单的加法,如果这道题单台机器线性执行的话,可以想想这个时间的消耗有多大,如果我们换一种思维来进行计算那么这个时间就可以减少很多,将整个加法分成若干个段进行相加,最后将这些结果段再进行相加。这样就可以实行分布式的计算。 上述的方法的思想就是:分而治之,然后汇总。 2. MapReduce分布式计算框架 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。 Apache对其做了开源实现,整合在hadoop中实现通用分布式数据计算。 MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。大大简化了分布式并发处理程序的开发。 Map阶段就是进行分段处理。 Reduce阶段就是进行汇总处理。汇总之后还可以进行数据的一系列美化操作,然后再输出。 3. MapReduce原理 MapReduce原理图: 此图借鉴的网上的。具体出处如图上的地址。 2、 Map、Reduce的入门案例 1. 入门案例 1> 实现WordCount ① WcMapper import org.apache.hadoop.io

Hadoop_MapReduce压缩案例

旧城冷巷雨未停 提交于 2020-12-24 02:55:47
Hadoop_MapReduce压缩案例 在map输出端压缩 修改 Hadoop_WordCount单词统计 工程 只需要修改 MyWordCount 的main方法即可: package com . blu . mywordcount ; import org . apache . hadoop . conf . Configuration ; import org . apache . hadoop . fs . Path ; import org . apache . hadoop . io . IntWritable ; import org . apache . hadoop . io . Text ; import org . apache . hadoop . io . compress . BZip2Codec ; import org . apache . hadoop . io . compress . CompressionCodec ; import org . apache . hadoop . mapreduce . Job ; import org . apache . hadoop . mapreduce . lib . input . FileInputFormat ; import org . apache . hadoop .

阿里云实时大数据解决方案,助力企业实时分析与决策

只愿长相守 提交于 2020-12-23 19:01:05
性能高1倍,价格低3/4!数据库实时同步新选择! 实时分析决策的第一步就需要将数据实时同步到大数据计算引擎,DataWorks数据集成采用自研高性能引擎,在相同的机器规格情况下,RDS实时同步性能最高为其他数据同步方案的2倍,而价格可低至其1/4。通过DataWorks数据集成,企业可以进行高效、低成本、稳定的实时数据同步。 DataWorks数据集成可以追溯到2011年的DataX1.0和2.0版本,随后3.0版本正式对外提供服务,再后来公有云、专有云、阿里内部功能三版合一,建立了Data Integration 服务。在2019年,DataWorks数据集成完成了商业化,独享资源组上线,按量付费、包年包月的付费方式也成功面向了用户。在2020年,全增量实时同步解决方案正式发布。 在全增量实时同步解决方案系统中,可以从MySql、Oracle、IBM DB2、SQL server、POLARDB等关系型数据库中全量离线同步到MaxCompute、Hologres、Elasticsearch、Kafka、DataHub等大数据产品中,再实现实时抽取关系型数据库的变更信息,同步到大数据产品中。像MaxCompute这种离线数仓,可以通过同步到Log表、拆分至Delta表、Merge到Base表,最后再写入MaxCompute这样的方式做实时增量同步。

spark on yarn 资源计算

空扰寡人 提交于 2020-12-23 04:42:54
1、spark job 提交模式 spark on yarn 分两种情况,一种是yarn-client 提交,一种是yarn-cluster提交方式,两种方式的区别是: yarn-cluster模式下,driver运行在AM(Application Master)中,它负责向YARN申请资源,并监督作业的运行状况。当用户提交了作业之后,就可以关掉Client,作业会继续在YARN上运行; yarn-client模式下,Application Master仅仅向YARN请求executor,client会和请求的container通信来调度他们工作; 其中yarn集群包含RM,NM,AM的概念如下: ResourceManager:是集群所有应用程序的资源管理器,能够管理集群的计算资源并为每个Application分配,它是一个纯粹的调度器。 NodeManager:是每一台slave机器的代理,执行应用程序,并监控应用程序的资源使用情况。 Application Master:每一个应用程序都会有一个Application Master,它的主要职责是向RM申请资源、在每个NodeManager上启动executors、监控和跟踪应用程序的进程等。 spark中driver的作用: - 运行应用程序的main函数 - 创建spark的上下文 - 划分RDD并生成有向无环图

Storm 第二章 Storm安装

。_饼干妹妹 提交于 2020-12-22 22:55:06
1 strom集群规划   Nimbus:hadoop1   zookeeper:hadoop2,hadoop3,hadoop4   supervisor:hadoop5,hadoop6,hadoop7   安装文件:apache-storm-1.0.0.tar 2 配置文件  storm.zookeeper.servers: - " hadoop2 " - " hadoop3 " - " hadoop4 " nimbus.seeds: [ " hadoop1 " ] supervisor.slots.ports: - 6700 - 6701 - 6702 - 6703 storm.local. dir : " /home/hadoop/storm-dir/ "   storm.zookeeper.servers:配置zookeeper地址   nimbus.seeds:配置nimbus地址,可以配置多个   supervisor.slots.ports:upervisor上能够运行workers的端口列表.每个worker占用一个端口,且每个端口只运行一个。   storm.local.dir:storm使用的本地文件系统目录。 3 分发安装包   使用scp命令将安装包分发至hadoop5,hadoop6,hadoop7 4 启动集群   4.1

如何为Spark应用程序分配--num-executors,--execuor-cores和--executor-memory

落爺英雄遲暮 提交于 2020-12-22 06:48:37
文章目录 前言 一些资源参数设置的基本知识 不同配置的优劣分析 第一种方法:使用较小的executors 第二种方法:使用较大的executors 第三种方法:使用优化的executors 前言 在我们提交spark程序时,应该如何为Spark集群配置–num-executors, - executor-memory和–execuor-cores 呢? 一些资源参数设置的基本知识 Hadoop / Yarn / OS Deamons 当我们使用像Yarn这样的集群管理器运行spark应用程序时,会有几个守护进程在后台运行,如NameNode,Secondary NameNode,DataNode,JobTracker和TaskTracker等。因此,在指定num-executors时,我们需要确保为这些守护进程留下足够的核心(至少每个节点约1 CPU核)以便顺利运行。 Yarn ApplicationMaster(AM) ApplicationMaster负责协调来自ResourceManager的资源,并与NodeManagers一起执行container并监控其资源消耗。如果我们在YARN上运行Spark,那么我们需要预估运行AM所需要的资源(至少1024MB和1 CPU核)。 HDFS吞吐量 HDFS客户端遇到大量并发线程会出现一些bug。一般来说

Linux用户组和权限管理

流过昼夜 提交于 2020-12-22 06:13:35
               Linux用户组和权限管理                                            作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Linux的安全模型 1>.安全3A   这并不是Linux特有的概念,在很多领域都有3A的概念,比如思科,微软,华为等设备都有安全的概念。大致归类为以下介个术语。     认证(Authentication):         即验明真身,主要是验证您是谁的功能。     授权(Authorization):         授权一般是验证您的身份后,您用的相应权限。     审计(Accouting|Audition):         审计一般是起到监督作用,可以反馈从一些存在的问题,比如安全审计,公司财务审计等等。 2>.用户user 令牌:   token,identity Linux用户:   Username/UID 管理员:   root,0(需要注意的是,并不是叫root的用户名才是管理员,而是因为它的uid为0) 普通用户:   1-60000编号是自动分配的,但如果我们认为指定用户编号的话是可以超过默认的分配阈值(60000),Linux用户分为系统用户和登录用户。   系统用户:1-499(CentOS6.X),1-999(CentOS7.X)

了解的CAP和BASE等理论

ぐ巨炮叔叔 提交于 2020-12-21 03:03:40
CAP,BASE和最终一致性是NoSQL数据库存在的三大基石。而五分钟法则是内存数据存储的理论依据。这个是一切的源头。 几个名词解释: 网络分区:俗称“脑裂”。当网络发生异常情况,导致分布式系统中部分节点之间的网络延时不断变大,最终导致组成分布式系统的所有节点中,只有部分节点之间能够进行正常通信,而另一些节点则不能。当网络分区出现时,分布式系统会出现局部小集群。 三态:分布式系统的每一次请求和响应包含:成功,失败,超时三种状态。 CAP CAP理论,指的是在一个分布式系统中,不可能同时满足Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性)这三个基本需求,最多只能满足其中的两项。 1、一致性: 指数据在多个副本之间是否能够保持一致的特性。当执行数据更新操作后,仍然剋保证系统数据处于一致的状态。 2、可用性: 系统提供的服务必须一直处于可用的状态。对于用户的每一个操作请求总是能够在“有限的时间内”返回结果。这个有限时间是系统设计之初就指定好的系统运行指标。返回的结果指的是系统返回用户的一个正常响应结果,而不是“out ot memory error”之类的系统错误信息。 3、分区容错性: 分布式系统在遇到任何网络分区故障的时候,仍然需要能够保证对外提供满足一致性和可用性的服务,除非是整个网络环境都发生了故障

Java后端学习路线

倖福魔咒の 提交于 2020-12-19 13:37:32
Java后端学习路线(适合科班、非科班和已工作的仔) 本文 GitHub github.com/JavaFamily 已收录,有一线大厂面试完整考点、资料以及我的系列文章。 前言 这期我想写很久了,但是因为时间的原因一直拖到了现在,我以为一两天就写完了,结果从构思到整理资料,再到写出来用了差不多一周的时间吧。 你们也知道丙丙一直都是创作鬼才来的,所以我肯定不会一本正经的写,我想了好几个切入点,最后决定用一个 完整的电商系统 作为切入点,带着大家看看,我们需要学些啥,我甚至还收集配套视频和资料, 暖男 石锤啊,这期是呕心沥血之作, 不要白嫖 了。 正文 在写这个文章之前,我花了点时间,自己臆想了一个电商系统,基本上算是麻雀虽小五脏俱全,我今天就用它开刀,一步步剖析,我会讲一下我们可能会接触的技术栈可能不全,但是够用,最后给个学习路线。 Tip :请多欣赏一会,每个点看一下,看看什么地方是你接触过的,什么技术栈是你不太熟悉的,我觉得还算是比较全的,有什么建议也可以留言给我。 不知道大家都看了一下没,现在我们就要庖丁解牛了,我从上到下依次分析。 前端 你可能会会好奇,你不是讲后端学习路线嘛,为啥还有前端的部分,我只能告诉你, 傻瓜 ,肤浅。 我们可 不能闭门造车 ,谁告诉你后端就不学点前端了? 前端现在很多也了解后端的技术栈的,你想我们去一个网站,最先接触的,最先看到的是啥?

六星教育创始人

时光总嘲笑我的痴心妄想 提交于 2020-12-19 07:42:06
六星教育创始人Pack老师 资深架构师、六星负责人 2008年,Pack老师成立杰越云信息企业,随后研发出内部独有的云平台系统,可承载千万级并发量,业内轰动一时,引起广泛关注。 2016年,Pack老师创办六星教育企业,专注培养高级精英IT技术人才。随着成立六星在线教育事业部,并设六星VIP教学中心,提供了更多“人人平等”的学习机会。 2017年,六星教育成为IT类目编程语言认证机构及年度最具影响力机构。 2018年,再次创办子公司——杰越云信息全资软件开发公司,为学员提供了大批实习实训机会,与六星教育、杰越学院形成教学管理、辅导服务、实训平台三法合一的企业成熟模式。 随着授课人数的增加,已累计为 30W+学员进行授课讲解,业内盛名远扬,权威性十足。 至今,Pack老师 作为教研技术团队负责人,始终坚守岗位一线。他曾任 IBM、拓维等上市企业架构师、开发主管等职, 有 12年大型项目研发经验。 熟练PHP、大数据web架构技能,精通开源框架运用和Linux参数配置及优化。具有大容量高并发电商应用架构设计、Hadoop大数据云平台等项目架构经验,并有多年企业专业培训经验。 课堂氛围轻松,注重寓教于乐,善于剖析原理,深入浅出,对技术有独特见解,深受学生好评。 为企业输送大量 IT技术精英人才,给互联网行业连番注入新鲜血液,推动了整个社会经济的发展。 人生格言: 身为世范,为人师表