yarn

spark-shell启动spark报错

雨燕双飞 提交于 2020-10-30 05:41:00
前言    离线安装好CDH、Coudera Manager之后,通过Coudera Manager安装所有自带的应用,包括hdfs、hive、yarn、spark、hbase等应用,过程很是波折,此处就不抱怨了,直接进入主题。 描述    在安装有spark的节点上,通过spark-shell启动spark,满怀期待的启动spark,but,来了个晴天霹雳,报错了,报错了!错误信息如下: 18/06/11 17:40:27 ERROR spark.SparkContext: Error initializing SparkContext. java.lang.IllegalArgumentException: Required executor memory ( 1024+384 MB) is above the max threshold (1024 MB) of this cluster! Please check the values of 'yarn.scheduler.maximum-allocation-mb' and/or 'yarn.nodemanager.resource.memory-mb' . at org.apache.spark.deploy.yarn.Client.verifyClusterResources(Client.scala: 281 )

Flink基于Kafka-Connector 数据流容错回放机制

可紊 提交于 2020-10-29 10:54:28
Flink基于Kafka-Connector 数据流容错回放机制及代码案例实战-Flink牛刀小试 Flink牛刀小试系列目录 Flink牛刀小试-Flink 集群运行原理兼部署及Yarn运行模式深入剖析 Flink牛刀小试-Flink Window类型及使用原理案例实战 Flink牛刀小试-Flink Broadcast 与 Accumulators 应用案例实战 Flink牛刀小试-Flink与SparkStreaming之Counters& Accumulators 累加器双向应用案例实战 Flink牛刀小试-Flink分布式缓存Distributed Cache应用案例实战 Flink牛刀小试-Flink状态管理与checkPoint数据容错机制深入剖析 Flink牛刀小试-Flink Window分析及Watermark解决乱序数据机制深入剖析 Flink牛刀小试-Flink Restart Strategies 重启策略机制深入剖析 Flink牛刀小试-Flink CheckPoint状态点恢复与savePoint机制对比剖析 Flink牛刀小试-Flink SQL Table 我们一起去看2018中超联赛 Flink牛刀小试-Flink基于Kafka-Connector 数据流容错回放机制及代码案例实战 [Flink牛刀小试-Flink

0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5

筅森魡賤 提交于 2020-10-29 01:24:27
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1 文档编写目的 Cloudera在2019年1月29日发布CDSW1.5,CDSW1.5的一个最大的更新就是支持CDH6和HDP,在1.5之前,CDSW是不能安装到CDH6.x的。CDH5.13版本以后支持CDSW的Parcel安装,本篇文章Fayson就主要讲述如何通过CM6.2使用Parcel包安装CDSW1.5。 CDSW需要DNS服务和泛域名解析,可以参考Fayson以前的文章 《 如何在Windows Server2008搭建DNS服务并配置泛域名解析 》、《 如何利用Dnsmasq构建小型集群的本地DNS服务器 》、《 如何在Windows Server2012搭建DNS服务并配置泛域名解析 》,《 如何在RedHat6上使用Bind搭建DNS服务 》或《 如何在RedHat7上使用Bind搭建DNS服务 》,CDSW1.5的新功能可以参考《 0544-CDSW1.5的新功能 》 。 搭建DNS服务推荐Dnsmasq,小巧可爱特方便。 内容概述 1.部署CDSW parcel及安装CSD文件 2

Rails + Webpacker + Puma + Nginx 部署

别来无恙 提交于 2020-10-28 09:46:39
准备 ssh 登录 首先 ssh 登录服务器,免密码登录可以参考 ssh 免密码登录服务器 创建部署用户 $ sudo adduser deploy 安装依赖 Ruby 这里使用 RVM 安装和管理 Ruby $ gpg --keyserver hkp://pool.sks-keyservers.net --recv-keys 409B6B1796C275462A1703113804BB82D39DC0E3 7D2BAF1CF37B13E2069D6956105BD0E739499BDB $ curl -sSL https://get.rvm.io | bash 等待安装完成 # 显示可用的 Ruby 版本 $ rvm list known # 安装 $ rvm install 2.5.3 更换 Gem 源(使用 ruby-china 源) $ gem sources --add https://gems.ruby-china.com/ --remove https://rubygems.org/ $ gem sources -l $ bundle config mirror.https://rubygems.org https://gems.ruby-china.com Node $ curl -sL https://deb.nodesource.com/setup_9.x |

CDH-Namenode-Yarn-Hbase-Hive的HA配置-Flink on yarn配置

别说谁变了你拦得住时间么 提交于 2020-10-28 08:41:28
配置namenode HA高可用 使用cloudera manager方式安装,namenode是单节点方式,需要额外配置成HA。配置NameNode HA的两点前提条件: (1)至少是3个或3个以上奇数个JournalNode,否则将无法继续配置NameNode HA. (2)配置NameNode需要有Zookeeper. 在hdfs - 操作 -选择启用HA 填写nameservice名称,自定义即可: 选择另外一台服务器安装namenode ,三个或5个节点安装journalnode。 配置namenode,journalnode数据目录,如/data1/dfs/nn,/data1/dfs/jn 继续等待命令执行完成,按照向导操作即可 启用HA成功 配置yarn HA高可用 使用管理员用户登录Cloudera Manager的Web管理界面,进入YARN服务 点击“启用High Avaiability”,选择ResourceManager主机 点击“继续”,启用ResourceManager HA 点击“完成”,查看YARN服务实例 可以看到YARN的ResourceManager实例为两个,一个是活动状态,一个是备用状态,至此已完成YARN HA的启用,那么接下来就测试下YARN HA功能的可用性。 Yarn HA功能可用性测试 ResourceManager服务状态

Hadoop和Yarn的配置文件

一曲冷凌霜 提交于 2020-10-27 04:56:22
  集群参数配置原则重写配置、默认覆盖,否则默认生效。下面总结Haoop常用配置文件参数。常用配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml,配置于Hadoop和Yarn这两个实例中,Hadoop和Yarn两个组件一个是负责存储一个是资源管理框架,相当于计算和存储,有的公司计算节点和存储节点分离,有的没有,按照需求使用。      1. core-site.xml 是 NameNode 的核心配置文件,主要对 NameNode 的属性进行设置,也仅仅在 NameNode 节点生效。     <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://HadoopHhy</value> </property> <property> <name>ha.zookeeper.quorum</name> <value>zk1:2015,zk2:2015,zk3:2015</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/bigdata/hadoop/tmp</value> <final>true</final> </property>

Hadoop知识点总结

青春壹個敷衍的年華 提交于 2020-10-26 06:58:29
一:大数据概述 一、大数据简介 1. 概念:指无法在一定时间范围内使用常规软件工具进项捕捉、管理和处理数据集合,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。 2. 作用: 解决海量数据的存储和海量数据的分析计算问题。 3. 大数据与云计算的关系:大数据必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术,有效地处理大量的容忍经过时间内的数据。 二、大数据特征 1. Volume(容量大):数据的大小决定所考虑的数据的价值和潜在的信息。 2. Velocity(速度快):获得并处理数据的效率。是区分传统数据挖掘最显著特征。 3. Variety(多样性):数据类型的多样性。以数据库/文本的结构化数据和以网络日志,图片,音频、视频等为主的非结构化数据。 4. Value(价值):合理运用大数据,以低成本创造高价值。 5. Variability(可变性):妨碍了处理和有效地管理数据的过程。 6. Veracity(真实性):数据的质量。 7. Complexity ( 复杂性 ):数据量巨大,来源多渠道。 三、大数据应用场景 1. 物流仓储:大数据分析系统助力商家精细化运营,提升销量,节约成本。 2. 零售及商品推荐:分析用户消费习惯,给用户推荐可能喜欢的商品,为用户购买商品提供方便。 3. 旅游:深度结合大数据能力和旅游行业需求

Hadoop V2 yarn与Hadoop V1 MapReduce对比

为君一笑 提交于 2020-10-25 10:43:22
对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架 1、Hadoop v1 1.1 Hadoop v1 MapReduce 架构图 1.2 Hadoop v1 MapReduce程序的流程及设计思路 首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是 Map-reduce 框架的中心,他需要与集群中的机器定时通信 (heartbeat), 需要管理哪些程序应该跑在哪些机器上,需要管理所有 job 失败、重启等操作。 TaskTracker 是 Map-reduce 集群中每台机器都有的一个部分,他做的事情主要是监视自己所在机器的资源情况。 TaskTracker 同时监视当前机器的 tasks 运行状况。TaskTracker 需要把这些信息通过 heartbeat 发送给 JobTracker,JobTracker 会搜集这些信息以给新提交的 job 分配运行在哪些机器上。上图虚线箭头就是表示消息的发送 - 接收的过程。 1.3 Hadoop v1 MapReduce程序问题 JobTracker 是 Map-reduce 的集中处理点,存在单点故障。 JobTracker 完成了太多的任务,造成了过多的资源消耗,当 map-reduce job