yarn | 易学教程

使用vuepress 搭建静态个人技术博客

阅读更多关于使用vuepress 搭建静态个人技术博客

官网 https://v1.vuepress.vuejs.org/ 案例 https://github.com/vuepressjs/awesome-vuepress#gallery 创建项目 yarn create vuepress blog cd blog yarn yarn dev yarn build 输入配置信息 _posts中为博客的md文件, .vuepress为项目的配置文件和公用组件以及静态资源默认的风格有点简洁, 文件结构有点冗余支持搜索和tag 插件大纲视图和回到顶部 https://github.com/xuekai-china/vuepress-plugin-right-anchor yarn add -D vuepress-plugin-right-anchor yarn add -D @vuepress/plugin-back-to-top 来源： oschina 链接： https://my.oschina.net/ahaoboy/blog/4326713

Hadoop系列-02、MapRedurce之WordCount

阅读更多关于 Hadoop系列-02、MapRedurce之WordCount

1.WorkCount代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import java.io.IOException; import java.util.StringTokenizer; public class WordCountApp { /** * map类，实现map函数 * * Mapper * * KEYIN 即K1 表示每一行的起始位置（偏移量offset） * * VALUEIN 即v1

基于DolphinScheduler提交spark yarn-cluster与yarn-client模式的致命区别

阅读更多关于基于DolphinScheduler提交spark yarn-cluster与yarn-client模式的致命区别

一、组件版本二、提交方式三、运行原理四、分析过程五、致命区别六、总结一、组件版本调度系统：DolphinScheduler1.2.1 spark版本：2.3.2 二、提交方式 spark在submit脚本里提交job的时候，经常会有这样的警告 Warning: Master yarn-cluster is deprecated since 2.0. Please use master "yarn" with specified deploy mode instead. 这是因为你用了yarn-cluster的方式： spark-submit \ --master yarn-cluster \ --executor-cores 2 \ --num-executors 3 \ --executor-memory 4g \ --driver-memory 1g \ test_spark.py 其实yarn-cluster与yarn-client分为两部分，分别对应spark内部的参数 master-deployMode ，不论你指定yarn-cluster还是yarn-client，master的值在源码里面都强制置为了 YARN ，在 org.apache.spark.deploy.SparkSubmit 类中源代码如下： val clusterManager : Int

第一天：什么是Flink、WordCount入门、Flink安装、并行度

阅读更多关于第一天：什么是Flink、WordCount入门、Flink安装、并行度

1. 初识 Flink 在当前数据量激增的时代，各种业务场景都有大量的业务数据产生，对于这些不断产的数据应该如何进行有效的处理，成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎 Apache Spark ，基本上已经取代了 MapReduce 成为当前大数据处理的标准。但对实时数据处理来说，Apache Spark 的 Spark-Streaming 还有性能改进的空间。对于 Spark-Streaming 的流计算本质上还是批（微批）计算，Apache Flink 就是近年来在开源社区不断发展的技术中的能够同时支持高吞吐、低延迟、高性能的纯实时的分布式处理框架(主要贡献者是阿里，QPS可达30W+)。 Flink 是什么 1. Flink 的发展历史在 2010 年至 2014 年间，由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合发起名为 Stratosphere:Information Management on the Cloud 研究项目，该项目在当时的社区逐渐具有了一定的社区知名度。 2014 年 4 月，Stratosphere 代码被贡献给 Apache 软件基金会，成为 Apache 基金会孵化器项目。初期参与该项目的核心成员均是 Stratosphere 曾经的核心成员，之后团队的大部分创始成员离开学校，共同创办了一家名叫

Flink 与 Hive 的磨合期

阅读更多关于 Flink 与 Hive 的磨合期

有不少读者反馈，参考上篇文章《 Hive 终于等来了 Flink 》部署 Flink 并集成 Hive 时，出现一些 bug 以及兼容性等问题。虽已等来，却未可用。所以笔者增加了这一篇文章，作为姊妹篇。回顾在上篇文章中，笔者使用的 CDH 版本为 5.16.2，其中 Hive 版本为 1.1.0（CDH 5.x 系列 Hive 版本都不高于 1.1.0，是不是不可理解），Flink 源代码本身对 Hive 1.1.0 版本兼容性不好，存在不少问题。为了兼容目前版本，笔者基于 CDH 5.16.2 环境，对 Flink 代码进行了修改，重新打包并部署。其实经过很多开源项目的实战，比如 Apache Atlas，Apache Spark 等，Hive 1.2.x 和 Hive 1.1.x 在大部分情况下，替换一些 Jar 包，是可以解决兼容性的问题。对于笔者的环境来说，可以使用 Hive 1.2.1 版本的一些 Jar 包来代替 Hive 1.1.0 版本的 Jar 包。在本篇文章的开始部分，笔者会解决这个问题，然后再补充上篇文章缺少的实战内容。剪不断理还乱的问题根据读者的反馈，笔者将所有的问题总结为三类： Flink 如何连接 Hive 除了 API 外，有没有类似 spark-sql 命令识别不到 Hadoop 环境或配置文件找不到依赖包、类或方法找不到 1.

Spark on K8S 的最佳实践和需要注意的坑

阅读更多关于 Spark on K8S 的最佳实践和需要注意的坑

本文来自 Data Mechanics 的 CEO Jean-Yves Stephan 和 CTO Julien Dumazert 在 Spark Summit North America 2020 的《Running Apache Spark on Kubernetes: Best Practices and Pitfalls》议题的分享。相关视频参见视频|在Kubernetes上运行Spark的最佳实践和陷阱，PPT 可以到你要的 Spark AI Summit 2020 PPT 我已经给你整理好了获取。近年来，K8S 在业界越来越流行，由于其有很多优点，很多企业将应用部署到 K8S 中，Spark 从 2.3 版本开始支持使用 K8S 作为资源管理器，参见 https://issues.apache.org/jira/browse/SPARK-18278。本文将介绍在 K8S 上运行 Spark 作业的最佳实践和需要注意的坑。在 Kubernetes 上运行 Spark 都有哪些经验的调查中显示： 61% 的人表示从来没用过，但是对这个感到好奇； 24% 的人表示只是在测试环境中使用，但是并没有在生产环境中使用； 15% 的人表示已经在生产环境中使用。本文主要结构包括： Spark on Kubernetes：核心概念；配置和性能调优技巧；

入门大数据---Hive计算引擎Tez简介和使用

阅读更多关于入门大数据---Hive计算引擎Tez简介和使用

一、前言 Hive默认计算引擎时MR，为了提高计算速度，我们可以改为Tez引擎。至于为什么提高了计算速度，可以参考下图：用Hive直接编写MR程序，假设有四个有依赖关系的MR作业，上图中，绿色是Reduce Task，云状表示写屏蔽，需要将中间结果持久化写到HDFS。 Tez可以将多个有依赖的作业转换为一个作业，这样只需写一次HDFS，且中间节点较少，从而大大提升作业的计算性能。二、安装包准备 1）下载tez的依赖包： http://tez.apache.org 2）拷贝apache-tez-0.9.1-bin.tar.gz到hadoop102的/opt/module目录 [root@hadoop102 module]$ ls apache-tez-0.9.1-bin.tar.gz 3）解压缩apache-tez-0.9.1-bin.tar.gz [root@hadoop102 module]$ tar -zxvf apache-tez-0.9.1-bin.tar.gz 4）修改名称 [root@hadoop102 module]$ mv apache-tez-0.9.1-bin/ tez-0.9.1 三、在Hive中配置Tez 1）进入到Hive的配置目录：/opt/module/hive/conf [root@hadoop102 conf]$ pwd /opt/module

实战hadoop2.6.3+zookeeper3.4.6+hbase1.0.2高可用集群方案

阅读更多关于实战hadoop2.6.3+zookeeper3.4.6+hbase1.0.2高可用集群方案

实战hadoop2.6.3+zookeeper3.4.6+hbase1.0.2高可用集群方案一、安装前准备 1.环境5台 2、修改hosts文件 [root@hadoop01 ~]# cat /etc/hosts 192.168.10.201 hadoop01 192.168.10.202 hadoop02 192.168.10.203 hadoop03 192.168.10.204 hadoop04 192.168.10.205 hadoop05 3、ssh 免密码登录在每台操作 [root@hadoop01 ~]# mkidr ~/.ssh [root@hadoop01 ~]# chmod 700 ~/.ssh [root@hadoop01 ~]#cd ~/.ssh/ [root@hadoop01 .ssh ]ssh-keygen -t rsa 五台操作完成后做成公钥文件 [root@hadoop01 .ssh ] ssh hadoop02 cat /root/.ssh/id_rsa.pub >> authorized_keys [root@hadoop01 .ssh ] ssh hadoop03 cat /root/.ssh/id_rsa.pub >> authorized_keys [root@hadoop01 .ssh ] ssh hadoop04 cat

hadoop和hadoop集群在CentOS7系统下安装和配置

阅读更多关于 hadoop和hadoop集群在CentOS7系统下安装和配置

文章目录一.安装CentOS7的linux系统二.hadoop安装前准备三.hadoop安装和相关文件配置 (一)安装Hadoop (二)修改配置文件 1.hadoop-env.sh运行环境的文件修改 2.core-site.xml配置文件修改(机器ip为192.168.56.101) 3.hdfs-site.xml配置文件的修改 4.新建mapred-site.xml文件写入如下内容: 5.yarn-site.xml配置文件修改 6.slaves配置: `vi slaves` 7.hadoop环境变量配置 (三)格式化HDFS:`hadoop namenode -format` (四)启动和关闭的命令: 四.验证是否成功(先启动hdfs,yarn,历史服务) 五.解决命令执行后报如下警告: 六.集群搭建 (一)复制虚拟机(复制前删除主机器hdfs临时文件目录,然后关闭主机器),如下: (二)启动副本机器,修改静态ip (三)启动所有集群机器,配置免登录 (四)修改主机器的配置文件 (五)修改副本机器的配置文件七.附安装视频,提取码: xaw6 一.安装CentOS7的linux系统具体安装见如下链接: linux系统安装二.hadoop安装前准备 1.所需文件见如下链接,链接:提取码: 6uxv hadoop相关安装包 2.安装jdk见如下链接

如何设置Spark Executor Memory的大小

阅读更多关于如何设置Spark Executor Memory的大小

一、Spark内存使用大体上的两类执行内存和存储内存。其中执行内存用于shuffle、join、sort、aggregation等操作的计算使用。存储内存用于cache对象、存储广播数据等。二、Executor内存设置小了会发生的现象 1、频繁GC，GC超限，CPU大部分时间用来做GC而回首的内存又很少，也就是executor堆内存不足。 2、java.lang.OutOfMemoryError内存溢出，这和程序实现强相关，例如内存排序等，通常是要放入内存的数据量太大，内存空间不够引起的。 3、数据频繁spill到磁盘，如果是I/O密集型的应用，响应时间就会显著延长。三、Spark内存模型注：2.0+和2.0以前的版本默认值不同（spark.memory.fraction Spark2.0+默认值0.6 Spark1.6默认值0.75）四、设置Executor内存大小的时候要考虑的因素以下情况适用于应用可以使用全部内存资源的情况。 1、物理可用内存大小。 2、对应每个core，给操作系统预留内存。 3、如果使用yarn进行资源分配，yarn执行资源分配需要的内存。 4、排除掉图中保留的300M系统内存。 5、看程序中有没有使用broadcast，如果使用了broadcast，估算broadcast数据可能占用多少空间。 6

订阅 yarn