yarn | 易学教程

spark-shell启动spark报错

阅读更多关于 spark-shell启动spark报错

前言　　离线安装好CDH、Coudera Manager之后，通过Coudera Manager安装所有自带的应用，包括hdfs、hive、yarn、spark、hbase等应用，过程很是波折，此处就不抱怨了，直接进入主题。描述　　在安装有spark的节点上，通过spark-shell启动spark，满怀期待的启动spark，but，来了个晴天霹雳，报错了，报错了！错误信息如下： 18/06/11 17:40:27 ERROR spark.SparkContext: Error initializing SparkContext. java.lang.IllegalArgumentException: Required executor memory ( 1024+384 MB) is above the max threshold (1024 MB) of this cluster! Please check the values of 'yarn.scheduler.maximum-allocation-mb' and/or 'yarn.nodemanager.resource.memory-mb' . at org.apache.spark.deploy.yarn.Client.verifyClusterResources(Client.scala: 281 )

Flink基于Kafka-Connector 数据流容错回放机制

阅读更多关于 Flink基于Kafka-Connector 数据流容错回放机制

Flink基于Kafka-Connector 数据流容错回放机制及代码案例实战-Flink牛刀小试 Flink牛刀小试系列目录 Flink牛刀小试-Flink 集群运行原理兼部署及Yarn运行模式深入剖析 Flink牛刀小试-Flink Window类型及使用原理案例实战 Flink牛刀小试-Flink Broadcast 与 Accumulators 应用案例实战 Flink牛刀小试-Flink与SparkStreaming之Counters& Accumulators 累加器双向应用案例实战 Flink牛刀小试-Flink分布式缓存Distributed Cache应用案例实战 Flink牛刀小试-Flink状态管理与checkPoint数据容错机制深入剖析 Flink牛刀小试-Flink Window分析及Watermark解决乱序数据机制深入剖析 Flink牛刀小试-Flink Restart Strategies 重启策略机制深入剖析 Flink牛刀小试-Flink CheckPoint状态点恢复与savePoint机制对比剖析 Flink牛刀小试-Flink SQL Table 我们一起去看2018中超联赛 Flink牛刀小试-Flink基于Kafka-Connector 数据流容错回放机制及代码案例实战 [Flink牛刀小试-Flink

0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5

阅读更多关于 0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1 文档编写目的 Cloudera在2019年1月29日发布CDSW1.5，CDSW1.5的一个最大的更新就是支持CDH6和HDP，在1.5之前，CDSW是不能安装到CDH6.x的。CDH5.13版本以后支持CDSW的Parcel安装，本篇文章Fayson就主要讲述如何通过CM6.2使用Parcel包安装CDSW1.5。 CDSW需要DNS服务和泛域名解析，可以参考Fayson以前的文章《如何在Windows Server2008搭建DNS服务并配置泛域名解析》、《如何利用Dnsmasq构建小型集群的本地DNS服务器》、《如何在Windows Server2012搭建DNS服务并配置泛域名解析》，《如何在RedHat6上使用Bind搭建DNS服务》或《如何在RedHat7上使用Bind搭建DNS服务》，CDSW1.5的新功能可以参考《 0544-CDSW1.5的新功能》。搭建DNS服务推荐Dnsmasq，小巧可爱特方便。内容概述 1.部署CDSW parcel及安装CSD文件 2

Rails + Webpacker + Puma + Nginx 部署

阅读更多关于 Rails + Webpacker + Puma + Nginx 部署

准备 ssh 登录首先 ssh 登录服务器，免密码登录可以参考 ssh 免密码登录服务器创建部署用户 $ sudo adduser deploy 安装依赖 Ruby 这里使用 RVM 安装和管理 Ruby $ gpg --keyserver hkp://pool.sks-keyservers.net --recv-keys 409B6B1796C275462A1703113804BB82D39DC0E3 7D2BAF1CF37B13E2069D6956105BD0E739499BDB $ curl -sSL https://get.rvm.io | bash 等待安装完成 # 显示可用的 Ruby 版本 $ rvm list known # 安装 $ rvm install 2.5.3 更换 Gem 源（使用 ruby-china 源） $ gem sources --add https://gems.ruby-china.com/ --remove https://rubygems.org/ $ gem sources -l $ bundle config mirror.https://rubygems.org https://gems.ruby-china.com Node $ curl -sL https://deb.nodesource.com/setup_9.x |

CDH-Namenode-Yarn-Hbase-Hive的HA配置-Flink on yarn配置

阅读更多关于 CDH-Namenode-Yarn-Hbase-Hive的HA配置-Flink on yarn配置

配置namenode HA高可用使用cloudera manager方式安装，namenode是单节点方式，需要额外配置成HA。配置NameNode HA的两点前提条件：（1）至少是3个或3个以上奇数个JournalNode，否则将无法继续配置NameNode HA. （2）配置NameNode需要有Zookeeper. 在hdfs - 操作 -选择启用HA 填写nameservice名称，自定义即可：选择另外一台服务器安装namenode ，三个或5个节点安装journalnode。配置namenode,journalnode数据目录,如/data1/dfs/nn，/data1/dfs/jn 继续等待命令执行完成，按照向导操作即可启用HA成功配置yarn HA高可用使用管理员用户登录Cloudera Manager的Web管理界面，进入YARN服务点击“启用High Avaiability”，选择ResourceManager主机点击“继续”，启用ResourceManager HA 点击“完成”，查看YARN服务实例可以看到YARN的ResourceManager实例为两个，一个是活动状态，一个是备用状态，至此已完成YARN HA的启用，那么接下来就测试下YARN HA功能的可用性。 Yarn HA功能可用性测试 ResourceManager服务状态

Hadoop HDFS is not distributing blocks of data evenly

阅读更多关于 Hadoop HDFS is not distributing blocks of data evenly

来源： https://stackoverflow.com/questions/28909817/hadoop-hdfs-is-not-distributing-blocks-of-data-evenly

Hadoop和Yarn的配置文件

阅读更多关于 Hadoop和Yarn的配置文件

集群参数配置原则重写配置、默认覆盖，否则默认生效。下面总结Haoop常用配置文件参数。常用配置文件：core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml，配置于Hadoop和Yarn这两个实例中，Hadoop和Yarn两个组件一个是负责存储一个是资源管理框架，相当于计算和存储，有的公司计算节点和存储节点分离，有的没有，按照需求使用。 1. core-site.xml 是 NameNode 的核心配置文件，主要对 NameNode 的属性进行设置，也仅仅在 NameNode 节点生效。 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://HadoopHhy</value> </property> <property> <name>ha.zookeeper.quorum</name> <value>zk1:2015,zk2:2015,zk3:2015</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/bigdata/hadoop/tmp</value> <final>true</final> </property>

Hadoop知识点总结

阅读更多关于 Hadoop知识点总结

一：大数据概述一、大数据简介 1. 概念：指无法在一定时间范围内使用常规软件工具进项捕捉、管理和处理数据集合，需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。 2. 作用：解决海量数据的存储和海量数据的分析计算问题。 3. 大数据与云计算的关系：大数据必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术，有效地处理大量的容忍经过时间内的数据。二、大数据特征 1. Volume（容量大）：数据的大小决定所考虑的数据的价值和潜在的信息。 2. Velocity（速度快）：获得并处理数据的效率。是区分传统数据挖掘最显著特征。 3. Variety（多样性）：数据类型的多样性。以数据库/文本的结构化数据和以网络日志，图片，音频、视频等为主的非结构化数据。 4. Value（价值）：合理运用大数据，以低成本创造高价值。 5. Variability（可变性）：妨碍了处理和有效地管理数据的过程。 6. Veracity（真实性）：数据的质量。 7. Complexity （复杂性）：数据量巨大，来源多渠道。三、大数据应用场景 1. 物流仓储：大数据分析系统助力商家精细化运营，提升销量，节约成本。 2. 零售及商品推荐：分析用户消费习惯，给用户推荐可能喜欢的商品，为用户购买商品提供方便。 3. 旅游：深度结合大数据能力和旅游行业需求

Spark Structured Streaming :: Unexpected error:: STATUS_INVALID_HANDLE with path=“”

阅读更多关于 Spark Structured Streaming :: Unexpected error:: STATUS_INVALID_HANDLE with path=“”

来源： https://stackoverflow.com/questions/63518735/spark-structured-streaming-unexpected-error-status-invalid-handle-with-path

Hadoop V2 yarn与Hadoop V1 MapReduce对比

阅读更多关于 Hadoop V2 yarn与Hadoop V1 MapReduce对比

对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架 1、Hadoop v1 1.1 Hadoop v1 MapReduce 架构图 1.2 Hadoop v1 MapReduce程序的流程及设计思路首先用户程序 (JobClient) 提交了一个 job，job 的信息会发送到 Job Tracker 中，Job Tracker 是 Map-reduce 框架的中心，他需要与集群中的机器定时通信 (heartbeat), 需要管理哪些程序应该跑在哪些机器上，需要管理所有 job 失败、重启等操作。 TaskTracker 是 Map-reduce 集群中每台机器都有的一个部分，他做的事情主要是监视自己所在机器的资源情况。 TaskTracker 同时监视当前机器的 tasks 运行状况。TaskTracker 需要把这些信息通过 heartbeat 发送给 JobTracker，JobTracker 会搜集这些信息以给新提交的 job 分配运行在哪些机器上。上图虚线箭头就是表示消息的发送 - 接收的过程。 1.3 Hadoop v1 MapReduce程序问题 JobTracker 是 Map-reduce 的集中处理点，存在单点故障。 JobTracker 完成了太多的任务，造成了过多的资源消耗，当 map-reduce job

订阅 yarn