HDFS

spark checkpoint

浪尽此生 提交于 2020-08-11 03:45:32
Checkpoint 到底是什么和需要用 Checkpoint 解决什么问题: Spark 在生产环境下经常会面临 Transformation 的 RDD 非常多(例如一个Job 中包含1万个RDD) 或者是具体的 Transformation 产生的 RDD 本身计算特别复杂和耗时 (例如计算时常超过1个小时) , 可能业务比较复杂,此时我们必需考虑对计算结果的持久化。 Spark 是擅长 多步骤迭代 ,同时擅长基于 Job 的复用。这个时候如果可以对计算的过程进行复用,就可以极大的提升效率。因为有时候有共同的步骤,就可以免却重复计算的时间。 如果采用 persists 把数据在内存中的话,虽然最快速但是也是最不可靠的;如果放在磁盘上也不是完全可靠的,例如磁盘会损坏,系统管理员可能会清空磁盘。 Checkpoint 的产生就是为了相对而言更加可靠的持久化数据,在 Checkpoint 可以指定把数据放在本地并且是多副本的方式,但是在正常生产环境下放在 HDFS 上,这就天然的借助HDFS 高可靠的特征来完成最大化的 可靠的持久化数据的方式 。 Checkpoint 是为了 最大程度保证绝对可靠的复用 RDD 计算数据的 Spark 的高级功能,通过 Checkpoint 我们通过把数据持久化到 HDFS 上来保证数据的最大程度的安任性 Checkpoint 就是针对整个RDD

官宣!ASF官方正式宣布Apache Hudi成为顶级项目

情到浓时终转凉″ 提交于 2020-08-11 01:06:31
官宣!ASF官方正式宣布Apache Hudi成为顶级项目 马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF)、350多个开源项目和全职开发人员、管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP)。在投票表决Hudi毕业时,Hudi总共获得了19票binding(其中包括ASF联合创始人Jim Jagielski的一票),21票non-binding。 Apache Hudi(Hadoop Upserts Delete and Incremental)数据湖技术可在Apache Hadoop兼容的云存储和分布式文件系统之上进行流处理。该项目最初于2016年在Uber开发(代号和发音为"Hoodie"),于2017年开源,并于2019年1月提交给Apache孵化器。 Apache Hudi项目VP Vinoth Chandar说:“在孵化器中学习和发展Apache之道是一种有益的体验,作为一个社区,我们对我们共同推动该项目走了多远依然感到谦卑,与此同时,对即将到来的挑战感到兴奋。” Apache Hudi用于在Apache Hadoop分布式文件系统(HDFS)或云存储上使用流处理原语(例如插入更新和增量更改流)来管理PB级数据湖。Hudi数据湖提供了新鲜的数据,比传统批处理效率高一个数量级。

java大数据最全课程学习笔记(2)--Hadoop完全分布式运行模式

牧云@^-^@ 提交于 2020-08-11 00:38:48
目前 CSDN , 博客园 , 简书 同步发表中,更多精彩欢迎访问我的 gitee pages 目录 Hadoop完全分布式运行模式 步骤分析: 编写集群分发脚本xsync 集群配置 集群部署规划 配置集群 集群单点启动 SSH无密登陆配置 登录状态的环境变量 群起集群 集群启动/停止方式总结 集群时间同步 其他注意事项 Hadoop完全分布式运行模式 步骤分析: 准备3台客户机(关闭防火墙、静态ip、主机名称) vim /etc/sysconfig/network 三台机器各自的配置分别为HOSTNAME=hadoop101;HOSTNAME=hadoop102;HOSTNAME=hadoop103 vim /etc/hosts 三台机器都加入下面的映射关系 192.168.1.101 hadoop101 192.168.1.102 hadoop102 192.168.1.103 hadoop103 安装JDK 配置环境变量 安装Hadoop 配置环境变量 配置集群 单点启动 配置ssh 群起并测试集群 由于在 上一章节 已经配置好环境并测试了hadoop伪分布式开发模式,所以在此不再赘述. 编写集群分发脚本xsync scp(secure copy) 安全拷贝(全量复制) scp定义 scp可以实现服务器与服务器之间的数据拷贝.(from server1 to server2)

hadoop:伪分布模式参数配置指南!

此生再无相见时 提交于 2020-08-10 22:47:47
Hadoop通过改变其配置文件来更改运行模式,我们通过修改如下四个配置文件core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml即可让Hadoop以伪分布模式运行。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value的方式来实现。接下来让我们开始进行hadoop的配置吧,配置之前首先启动Ubuntu虚拟机,然后打开Xshell软件并连接登录虚拟机。 1、设置hadoop-env.sh配置文件 首先,我们需要修改hadoop运行相关的sh文件,以保证hadoop运行过程中能够正常使用其他软件或组件的功能,此处一般而言只需将JAVA功能添加在内既可。 cd ~/hadoop/etc/hadoop # 进入hadoop配置文件夹 vim hadoop-env.sh 在弹出的框体中输入i进入输入模式,此时可以编辑hadoop-env.sh了。 将JAVA路径写入到文件,只需修改 为如下代码 export JAVA_HOME=/usr/local/lib/jdk1.8 然后按Esc进入命令模式再输入:wq保存文件并退出。 注:后面编辑文件的操作有将不再反复赘述编辑器打开关闭过程,只对需要更改、编辑的内容进行说明。 2、配置core-site.xml文件 首先是core-site

hadoop:伪分布模式环境变量的配置 !

限于喜欢 提交于 2020-08-10 20:57:57
单节点集群模式(a Single Node Cluster)又称伪分布模式,只需一个节点即可运行。这种模式一般只是用来学习或者开发、测试使用。实际使用中还是使用多节点的分布式。 1、环境变量配置 为了方便的执行Hadoop程序,需要配置很多系统环境变量。主要有以下几个变量 设置HADOOP_HOME为Hadoop的安装路径 export HADOOP_HOME=/home/hduser/hadoop 设置将hadoop添加到PATH,上文中已经介绍过hadoop的运行文件在bin和sbin目录下,通过设置PATH后,我们可以在任何位置执行hadoop命令。 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin 设置hadoop其他环境变量 export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME 链接库的相关设置 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME export HADOOP_OPTS=”-Djava.library.path=$HADOOP_HOME

Spark之RDD持久化大全

风格不统一 提交于 2020-08-10 17:11:12
什么是持久化? 持久化的意思就是说将RDD的数据缓存到内存中或者持久化到磁盘上,只需要缓存一次,后面对这个RDD做任何计算或者操作,可以直接从缓存中或者磁盘上获得,可以大大加快后续RDD的计算速度。 为什么要持久化? 在之前的文章中讲到Spark中有tranformation和action两类算子,tranformation算子具有lazy特性,只有action算子才会触发job的开始,从而去执行action算子之前定义的tranformation算子,从hdfs中读取数据等,计算完成之后,Spark会将内存中的数据清除,这样处理的好处是避免了OOM问题,但不好之处在于每次job都会从头执行一边,比如从hdfs上读取文件等,如果文件数据量很大,这个过程就会很耗性能。这个问题就涉及到本文要讲的RDD持久化特性,合理的使用RDD持久化对Spark的性能会有很大提升。 持久化带来的好处及原理 Spark可以将RDD持久化在内存中,当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD读取一次即可,后面直接使用该RDD,而不需要反复计算多次该RDD。 Spark 中一个很重要的能力是将数据持久化(或称为缓存)

大数据Hive学习案例(1)——基于搜狗sogou_500w的日志数据分析

耗尽温柔 提交于 2020-08-10 15:27:27
基于搜狗sogou_500w的日志数据分析 数据预处理 查看数据 数据扩展 数据加载 构建数据仓库 创建外部表 创建分区表 数据分析需求 条数统计 关键词分析 UID分析 用户行为分析 点击次数与rank之间的关系分析 直接输入URL作为查询词的比例 独立用户行为分析 数据下载 请点击我 ,提取码:cutx,觉得有用希望您能点一个赞哦。 数据预处理 查看数据 [hadoop@hadoop000 hive_data]$ less sogou.500w.utf8 20111230000005 57375476989eea12893c0c3811607bcf 奇艺高清 1 1 http://www.qiyi.com/ 20111230000005 66c5bb7774e31d0a22278249b26bc83a 凡人修仙传 3 1 http://www.booksky.org/BookDetail.aspx?BookID=1050804&Level=1 20111230000007 b97920521c78de70ac38e3713f524b50 本本联盟 1 1 http://www.bblianmeng.com/ [hadoop@hadoop000 hive_data]$ wc -l sogou.500w.utf8 5000000 sogou.500w.utf8 数据扩展 主要目的

hadoop集群搭建(hdfs)

此生再无相见时 提交于 2020-08-10 13:20:54
   (搭建hadoop集群的前提是服务器已成功安装jdk以及服务器之间已设置免密码登录,服务器之间的免密码登录可参考《 linux服务器间ssh免密码登录 》) 1、下载hadoop安装包   wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.0.0/hadoop-3.0.0-src.tar.gz 2、解压安装包   tar zxvf hadoop-3.0.0-src.tar.gz 3、配置hadoop的环境变量    vi /etc/profile(三台机器)   增加以下配置    #Hadoop 3.0 export HADOOP_PREFIX=/home/hadoop/hadoop-3.0.0 export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin export HADOOP_COMMON_HOME=$HADOOP_PREFIX export HADOOP_HDFS_HOME=$HADOOP_PREFIX export HADOOP_MAPRED_HOME=$HADOOP_PREFIX export HADOOP_YARN_HOME=$HADOOP_PREFIX export HADOOP_INSTALL=$HADOOP_PREFIX

想了解大数据的鼻祖Hadoop技术栈,这里有一份优质书单推荐!

╄→гoц情女王★ 提交于 2020-08-10 12:52:37
​ 如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。 今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据,都不好意思说自己是在IT圈混的。我敢打赌,你在中关村西二旗地铁站溜一圈,保准你会听到如下名词:Hadoop、Spark、MapReduce、NoSQL、离线计算、实时计算、实时推送等等一大串名称。 程序猿们就是有这么实在,坐在地铁上还能那么投入的讨论技术问题。那么,这些听起来高大上的技术,究竟都是干什么用的呢?他们之间的有什么区别和联系? 通常,一个技术的兴起,都是由现实需求驱动的。了解了我们面临的问题,就能更好的理解各个大数据技术的使用场景,各类大数据技术的区别也就显而易见了。 今天这一份书单,我们就将从Hadoop生态圈开始入手,推荐几本关于Hadoop生态圈的优质书籍! Hadoop技术栈系列书单 ​ Hadoop权威指南:大数据的存储与分析(第4版) 本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。 全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发

Spark+Zookeeper搭建高可用Spark集群

末鹿安然 提交于 2020-08-10 06:40:14
Spark三种分布式部署方式比较 目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN, 详情参考 。 Spark standalone模式分布式部署 环境介绍 主机名 应用 tvm11 zookeeper tvm12 zookeeper tvm13 zookeeper、spark(master)、spark(slave)、Scala tvm14 spark(backup)、spark(slave)、Scala tvm15 spark(slave)、Scala 说明 依赖scala: Note that support for Java 7, Python 2.6 and old Hadoop versions before 2.6.5 were removed as of Spark 2.2.0. Support for Scala 2.10 was removed as of 2.3.0. Support for Scala 2.11 is deprecated as of Spark 2.4.1 and will be removed in Spark 3.0. zookeeper: Master结点存在单点故障,所以要借助zookeeper,至少启动两台Master结点来实现高可用