Hadoop

Spark(十四)SparkStreaming的官方文档

牧云@^-^@ 提交于 2021-02-03 05:50:25
一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然后初始化SparkStreaming的程序入口StreamingContext; 2、Master会为这个Application的运行分配资源,在集群中的一台或者多台Worker上面开启Excuter,executer会向Driver注册; 3、Driver服务器会发送多个receiver给开启的excuter,(receiver是一个接收器,是用来接收消息的,在excuter里面运行的时候,其实就相当于一个task任务) 4、receiver接收到数据后,每隔200ms就生成一个block块,就是一个rdd的分区,然后这些block块就存储在executer里面,block块的存储级别是Memory_And_Disk_2; 5、receiver产生了这些block块后会把这些block块的信息发送给StreamingContext; 6、StreamingContext接收到这些数据后,会根据一定的规则将这些产生的block块定义成一个rdd; 三

自助BI工具:Tableau和Smartbi的对比(上)

风流意气都作罢 提交于 2021-02-02 21:13:32
商业智能(BI)和分析平台长期以来一直是商业的重要组成部分,但由于自助BI工具的兴起,在数据科学家和数据库管理员的支持下,分析的责任已经从IT转移到了商业分析师身上。 因此,BI已经从生成月度报告的记录系统,转变为基于各种内部和外部来源的数据,交互式地发现和共享趋势、预测以及对业务问题的回答。采用自助BI的企业可以在几天内决定行动方案,而不是需要长达几个月的时间。 1、部署使用 Tableau 为C/S架构,需要在用户终端安装desktop进行分析的设计,在服务器端安装server,将模块数据与分析发布在server上,使用reader查看客户端生成的分析,可以在web断和移动端查看在server上发布的分析。体量较大,布署稍复杂,使用时需要客户端配合。 Smartbi 采用B/S架构,容易部署、升级简便。让大数据应用和分析走进员工和管理者工作中,激发各层人员对数据的认知、挖掘和运用;通过推动全员自助分析、数据共享,提升企业数据资产价值,促进业务发展、风险控制和内部管理,进而推动数字化转型。也可以集成到自己开发的项目中使用。 2、平台界面 Tableau是服务器与客户端分离的,平台管理与设计分开进行,产品的逻辑清晰,易于理解、便于用户的操作,但不利于IT部门管控和配合。 Smartbi是把整个平台和设计都放在一个界面上,利用权限管理,来控制每个使用者显示的界面。有利于企业级的管控。

企业是如何解决HDFS单点问题的?

為{幸葍}努か 提交于 2021-02-02 12:40:28
前言 在早期Hadoop刚出来的时候是没有解决HDFS单点问题的,这就意味着当NameNode的服务器宕机了就会导致整个集群瘫痪,这是非常危险的于是在Hadoop不断的更新下提出了Hadoop HA来解决NameNode单点问题,接下来我们就来聊一聊。 解决HDFS单点问题解决方案 解决HDFS点单问题其实可以部署两个NameNode,但是真正对外服务只有一个,部署两个NameNode那他们之间的元数据信息是不是需要共享元数据信息呀,不然当其中一个NameNode挂掉了元数据信息没有同步不就会有问题。 根据appche提出的解决方案目前有三种解决方案如下 方案一、目录共享 目录共享是在appche社区中提出但是现在没有引用,目录共享也是一个单点问题,如果当目录共享挂掉了是不是也会导致HDFS挂掉。所以就被一些企业抛弃了。 方案二、使用JournalNode方案 我们使用JN来保存元数据信息就不会造成单点问题,JN也是一个集群,我们一般部署JN一般会选择基数例如3,5,7,9等。JN有一个政策只要存活的节点大于 二分之一 就是一个正常的服务。 注意: 我们不要为了解决NameNode的单点问题选择的的组件也是单点问题,这个根本还是没有解决。 JN中的信息都是一样的,那为什么也是其中的一个NameNode就是写数据其中一个就是读取数据那? 其实NameNode也是有角色之分的写的为

Neo4j 导入 Nebula Graph 的实践总结

岁酱吖の 提交于 2021-02-02 11:58:32
摘要: 主要介绍如何通过官方 ETL 工具 Exchange 将业务线上数据从 Neo4j 直接导入到 Nebula Graph 以及在导入过程中遇到的问题和优化方法。 本文首发于 Nebula 论坛: https://discuss.nebula-graph.com.cn/t/topic/2044 1 背景 随着业务数据量不断增长,业务对图数据库在线数据实时更新写入和查询的效率要求也不断增加。Neo4j 存在明显性能不足,Neo4j 社区开源版本只支持单机部署,扩展能力存在比较大的问题,无法满足读写性能的线性扩展以及读写分离的业务需求,并且开源版本 Neo4j 对点和边的总数据量也有限制;而 Neo4j 企业版因果集群也存在单机主节点 Cypher 实时写入的性能瓶颈。 相比于 Neo4j,Nebula Graph 最大的特色便是采用 shared-nothing 分布式的架构,无单主写入瓶颈问题,读写支持线性扩展,擅长处理千亿节点、万亿条边的超大规模数据集。 本文主要介绍如何通过官方 ETL 工具 Exchange 将业务线上数据从 Neo4j 直接导入到 Nebula Graph 以及在导入过程中遇到的问题和优化方法。其中绝大部分问题都已经通过论坛发帖的方式得到社区的支持和解决,本文会结合问题进行逐一列举。 2 部署环境 系统环境: CPU name:Intel(R)

【爬坑】在 IDEA 中运行 Hadoop 程序 报 winutils.exe 不存在错误解决方案

≡放荡痞女 提交于 2021-02-02 00:38:05
【爬坑】在 IDEA 中运行 Hadoop 程序 报 winutils.exe 不存在错误解决方案 参考文章: (1)【爬坑】在 IDEA 中运行 Hadoop 程序 报 winutils.exe 不存在错误解决方案 (2)https://www.cnblogs.com/share23/p/9873776.html 备忘一下。 来源: oschina 链接: https://my.oschina.net/u/4438370/blog/4940885

你不是谷歌,不要学习它的一切

僤鯓⒐⒋嵵緔 提交于 2021-01-31 14:57:03
软件工程师对于最荒渺的事情非常热衷。我们倾向于认为自己是超理性的,但是当我们面临一种技术选择的时候,我们最终会陷入一种疯狂状态——从一个人的Hacker News评论跳到另一个人的博客文章,直到变得麻木,我们无助地漂浮朝着最明亮的光线倾斜,并且俯卧在它的前面,而忽略了我们最初寻找的东西。 这不是理性的人做出决定的方式,而是软件工程师决定使用MapReduce的方式。 正如Joe Hellerstein在他的本科数据库课程[1]上所说的(在54分钟): 问题是世界上有5家公司从事如此大的工作。对于其他所有人……你正在为实际上不需要的容错能力执行所有这些I/O。人们在2000年代有点Google的狂热:“我们将像Google一样做所有事情,因为我们也运行着世界上最大的互联网数据服务” [横摆倾斜,等待笑声] 你们的数据中心大楼有几层?Google在俄克拉荷马州梅斯县的数据中心是4层。 拥有比所需更多的容错能力可能听起来不错,但考虑到成本:不仅会做更多的I/O,而且可能会从一个成熟的系统(如事务,索引和查询优化器)过渡到某种相对不成熟的系统上。真是倒退了一大步[2]。有多少Hadoop用户自觉地进行了这些折衷?有多少用户明智地进行了这些折衷? 目前,MapReduce/Hadoop仅仅是一个简单的目标(soft target),即使开发人员已经意识到目标不是很合适。但是

Hadoop Yarn框架详细解析

橙三吉。 提交于 2021-01-31 11:17:32
在说Hadoop Yarn之前,我们先来看看Yarn是怎样出现的。在古老的Hadoop1.0中,MapReduce的JobTracker负责了太多的工作,包括资源调度,管理众多的TaskTracker等工作。这自然就会产生一个问题,那就是JobTracker负载太多,有点“忙不过来”。于是Hadoop在1.0到2.0的升级过程中,便将JobTracker的资源调度工作独立了出来,而这一改动,直接让Hadoop成为大数据中最稳固的那一块基石。, 而这个独立出来的资源管理框架,就是Hadoop Yarn框架 。 一. Hadoop Yarn是什么 在详细介绍Yarn之前,我们先简单聊聊Yarn,Yarn的全称是 Yet Another Resource Negotiator ,意思是“ 另一种资源调度器 ”,这种命名和“有间客栈”这种可谓是异曲同工之妙。这里多说一句,以前Java有一个项目编译工具,叫做Ant,他的命名也是类似的,叫做“Another Neat Tool”的缩写,翻译过来是”另一种整理工具“。 既然都叫做资源调度器了,那么自然,它的功能也是负责资源管理和调度的,接下来,我们就深入到Yarn框架内部一探究竟吧。 二. Hadoop Yarn主要架构 这张图可以说是Yarn的全景图,我们主要围绕上面这张图展开,介绍图中的每一个细节部分。首先

Hadoop之HDFS

放肆的年华 提交于 2021-01-31 05:31:12
微信公众号: 北风中独行的蜗牛 HDFS 全称 Hadoop Distributed File System - Hadoop分布式文件系统,是Hadoop项目的核心子项目,对海量数据进行进行存储与管理 HDFS存储块为128M 现在HDFS的block的默认大小为128M。寻址时间指的是在HDFS中,找到目标block的时间。如果block越大,寻址时间就越短,因为NameNode中存储的元数据就越少,但是明显传输时间会就变大,反之,寻址时间就越长。通常MapReduce中每一个任务只会处理一个块,如果block太大也会影响任务的执行时间。经过前人的研究,寻址时间平均为10ms比较合适,就是查找block的时间为10ms,寻址时间为传输时间的1%,也就是10/0.01=1S,现在磁盘的读取速率大概为100M/s,所以每秒大概为100M,取2的指数级,即为128M。如果磁盘的读取速率 为200M/s, 则block的大小为256M。Block的大小 在hdfs-site.xml 中设置,name为dfs.blocksize 机架感知 数据块的存储涉及到一个概念,叫做机架感知。意思是同一个数据的备份,会放到不同机架的不同节点上,防止数据的丢失。通常冗余的数据为3,放数据的策略是第一个block放到与client同一个机器的DataNode节点上,如果Client不在集群范围

HDFS与HADOOP

喜夏-厌秋 提交于 2021-01-31 05:30:58
再写 HDFS Federation机制的时候,发现基础不扎实,需要将之前的hadoop再详细记录一下原理(重点只说Hadoop2.0版本): Hadoop2.0版本,引入了Yarn。核心:HDFS+Yarn+Mapreduce Yarn是资源调度框架。能够细粒度的管理和调度任务。此外,还能够支持其他的计算框架,比如spark等。 存储的基础知识以及原理: 元数据信息和具体数据,分别对应namenode和datenode: namenode 工作职责: 1.要知道管理有哪些机器节点,即有哪些datanode。比如ip信息等。 2.要管理文件信息,文件名、文件多大、文件被切成几块、以及每一块的存贮位置信息(存在哪个datanode节点上了),即管理元数据信息。 3.要有一个机制要知道集群里datanode节点的状态变化。可以rpc心跳机制来做到。 4.namenode存在单点故障问题,可以再引入一台管理者节点。 5.datanode挂掉后,可能数据就丢失,文件就不完整了,要有一个备份机制,一般来说,一个文件块,有3个备份,本机一份,同一机架的其他datanode有一份,另外一机器的机器上有一份。 管理元数据信息,文件名,文件大小,文件块信息等。 namdenode把元数据信息存到内存里,为了快速查询,此外为了应对服务宕机而引起的元数据丢失,也要持久化到本地文件里。

cloudera第7天

会有一股神秘感。 提交于 2021-01-30 10:09:02
所谓·生活 就是一系列下定决心的努力 · 正 · 文 · 来 · 啦 · Cloudera实时初学者教程 欢迎来到Cloudera QuickStart VM, Cloudera Live的一部分!跟随本教程,您不仅将了解如何开始使用CDH (Cloudera的开源发行版,包括Apache Hadoop)中提供的一些工具,还将了解提出更大的问题意味着什么。在本教程结束时,您将: 了解如何在CDH中使用一些强大的工具 了解如何设置和执行一些基本的商业智能和分析用例 步骤 进入你的指导页面 点击“启动Cloudera管理器”链接 检查上面列出的服务旁边是否有一个绿色圆圈。 如果为灰色的方块 那么就是停止状态 如下图所示启动 启动/重新启动服务 单击服务名称右侧的下拉菜单 单击Start或Restart 3.等待您的服务变为绿色 启动成功 现在您已经验证了您的服务是健康的并显示为绿色,您可以继续。 ‘ 所谓成功 ’ 坚持把简单的事情做好就是 不简单 , 坚持把平凡的事情做好就是 不平凡 。 每个人都有潜在的能量, 只是很容易-- 被 习惯 所掩盖, 被 时间 所迷离, 被 惰性 所消磨。 那么, 成功 呢? 就是 在 平凡中 做出 不平凡 的 坚持 。 长按二维码关注我们吧 期待您的进步 ▽ 本文分享自微信公众号 - DataScience(DataScienceTeam)。 如有侵权