yarn

基于Hadoop的58同城离线计算平台设计与实践

大城市里の小女人 提交于 2020-04-26 21:56:26
分享嘉宾:余意 58同城 高级架构师 编辑整理:史士博 内容来源:58大数据系列直播 出品平台:DataFun 注:欢迎转载,转载请在留言区留言。 导读: 58离线计算平台基于 Hadoop 生态体系打造,单集群4000+台服务器,数百 PB 存储,日40万计算任务,面临挑战极大。58 大数据平台的定位主要是服务数据业务开发人员,提高数据开发效率,提供便捷的开发分析流程,有效支持数据仓库及数据应用建设。通常大数据平台通用基础能力包括:数据存储、实时计算、离线计算、数据查询分析,本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。 本文主要内容包括: 58在集群快速增长的过程中遇到的问题以及解决之道; 58大数据集群跨机房迁移的相关工作,如何在5个月时间快速完成3000台集群服务的迁移工作。 ▌ 数据平台部简介 数据平台部是负责58统一大数据基础平台能力建设。平台负责的工作主要包括以下几部分: 数据接入: 文本的收集,我们采用 flume 接入,然后用 kafka 做消息缓冲,我们基于 kafka client 打造了一个实时分发平台,可以很方便的把 kafka 的中间数据打到后端的各种存储系统上。 离线计算: 我们主要基于 Hadoop 生态的框架做了二次定制开发。包括 HDFS、YARN、MR、SPARK。 实时计算:

基于Hadoop的58同城离线计算平台设计与实践

吃可爱长大的小学妹 提交于 2020-04-26 21:41:51
分享嘉宾:余意 58同城 高级架构师 编辑整理:史士博 内容来源:58大数据系列直播 出品平台:DataFun 注:欢迎转载,转载请在留言区留言。 导读: 58离线计算平台基于 Hadoop 生态体系打造,单集群4000+台服务器,数百 PB 存储,日40万计算任务,面临挑战极大。58 大数据平台的定位主要是服务数据业务开发人员,提高数据开发效率,提供便捷的开发分析流程,有效支持数据仓库及数据应用建设。通常大数据平台通用基础能力包括:数据存储、实时计算、离线计算、数据查询分析,本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。 本文主要内容包括: 58在集群快速增长的过程中遇到的问题以及解决之道; 58大数据集群跨机房迁移的相关工作,如何在5个月时间快速完成3000台集群服务的迁移工作。 ▌ 数据平台部简介 数据平台部是负责58统一大数据基础平台能力建设。平台负责的工作主要包括以下几部分: 数据接入: 文本的收集,我们采用 flume 接入,然后用 kafka 做消息缓冲,我们基于 kafka client 打造了一个实时分发平台,可以很方便的把 kafka 的中间数据打到后端的各种存储系统上。 离线计算: 我们主要基于 Hadoop 生态的框架做了二次定制开发。包括 HDFS、YARN、MR、SPARK。 实时计算:

重启yarn导致僵死资源不可用问题

我是研究僧i 提交于 2020-04-25 22:30:53
今日在做节点可靠性测试的时候,错误重启了yarn整个服务,其hdfs等他组件正常,yarn过会自动僵死,导致整个平台资源调度问题,恢复步骤如下: 1.查看日志tail -f yarn-resourcemanger-192.168.1.233.log(不清楚你的日志在哪可以find / -name yarn) 2.登陆装有yarn的机器,查看rm1,rm2 的状态。我的rm1,rm2,都是standby,(rm是resourceManger,HA) $ yarn rmadmin - getServiceState rm1 standby $ yarn rmadmin - getServiceState rm2 standby (手动的切换准备命令了 yarn rmadmin - transitionToStandby rm1) 3.以上两个命令已经可以发现主rm没有起来,但重启后,依然会僵死。清空rm日志,重新启动rm后,分析日志会发现如下错误: Caused by: org.apache.hadoop.metrics2.MetricsException: Hadoop:service=ResourceManager,name=RMNMInfo already exists! Caused by: java.lang.IllegalArgumentException: No

npm和yarn的区别,我们该如何选择?

房东的猫 提交于 2020-04-25 22:30:31
首先,这两个都属于js包管理工具,都可以安装包或者模块 yarn 是由facebook、google等联合开发推出的 区别: npm 下载包的话 比如npm install 它是按照包的排序,也就是队列挨个下载,一个下载完成后,再下载另一个 yarn是将要下载的包进行同时下载 yarn 在下载模块或包时,命令行输出的信息更加简洁 npm版本5.0 之后,会自带package.lock.json 文件,该文件主要描述了你项目中安装的包都是哪一个版本,你再进行npm install 的话,会安装指定版本的包。 yarn 一直都有lock 文件,功能和npm 的package.lock.json差不多。 命令不同 npm install == yarn npm isntall vue == yarn add vue npm uninstall vue == yarn remove vue npm update == yarn upgrade 按照以往,我的步骤都是: git clone xxx npm install npm run dev 这时,JJ给我来了下面一段 git clone xxx yarn yarn start “咦,yarn是什么鬼?难道npm更高级的替代品?为什么要替代npm?难道有什么好的地方?”,内心一连串的问题冒出来。我就默默的问了一下JJ:

hadoop之yarn详解(命令篇)

[亡魂溺海] 提交于 2020-04-25 22:30:13
本篇主要对yarn命令进行阐述 一、yarn命令概述 [root@lgh ~]# yarn - help Usage: yarn [ -- config confdir] COMMAND where COMMAND is one of: resourcemanager -format-state- store deletes the RMStateStore resourcemanager run the ResourceManager Use -format-state-store for deleting the RMStateStore. Use -remove-application- from -state-store <appId> for removing application from RMStateStore. nodemanager run a nodemanager on each slave timelineserver run the timeline server rmadmin admin tools version print the version jar <jar> run a jar file application prints application(s) report / kill application

yarn常见命令

≡放荡痞女 提交于 2020-04-25 20:04:40
yarn -v yarn config get registry yarn config set registry ' https://registry.npm.taobo.org/' yarn global add xxx yarn install 安装packe.json中的安装包 yarn add 添加项目的依赖保 来源: oschina 链接: https://my.oschina.net/lilugirl2005/blog/4099052

无法外网访问VM中的hadoop yarn的8088端口

帅比萌擦擦* 提交于 2020-04-25 09:46:15
1、检查是否正确的启动了resourcemanager服务   若是没有启动,请检查yarn-site-xml配置 2、若是启动了   1、检查客户机和虚拟机之间是否能够相互ping通   2、检查虚拟机防火墙是否关闭 3、排查 1、首先,各个虚拟机和客户端之前都能ping通,虚拟机都能上外网,说明网络没有问题。 2、各个虚拟机自己的防火墙已经关闭。 3、在外网可以连接22端口和50070端口 4、解决   通过命令:netstat -tpnl | grep java 发现   那么通过在本机通过127.0.0.1:8088 可以访问,所以现在改为外网ip应该就行了   说明:外网IP:192.168.80.11   去master主机中:更改/etc/hosts文件:       注意:我自己配置的是伪分布式,在配置文件内配置的都是localhost,根据自己的配置自行更改。    然后在通过netstat -tpnl | grep java 命令查看:      在客户机上再通过外网就能访问了:    问题解决。    来源: oschina 链接: https://my.oschina.net/u/4397463/blog/3827209

使用vue-cli@3启动elementui脚手架

杀马特。学长 韩版系。学妹 提交于 2020-04-25 07:55:57
【vue3.x】 准备看elementui的源码,早上拉elementui提供的脚手架代码,于是下载了vue3.x(之前一直用2.x) 1.先把vue2.x卸载了 npm uninstall -g vue-cli 2.安装新3.x npm install -g @vue/cli 3.新建项目 vue create 3.0project (vue2.x新建项目-vue init webpack 2.0project) 4.vue cli 3和旧版使用了相同的vue命令,所以vue cli2(vue-cli)被覆盖了。 如果仍然想要使用旧版的vue init 功能,可以全局安装一个桥接工具: npm install -g @vue/cli-init #'vue init'的运行效果将会跟'vue-cli@2.x'相同# vue init webpack 2.0project 【yarn】 1.官网推荐用yarn安装依赖 于是 brew install yarn 安装yarn 2.执行yarn命令时,报错【error An unexpected error occurred: "https://registry.yarnpkg.com/vue/-/vue-2.5.16.tgz: ETIMEDOUT"】 查了下 发现是代理的问题 把npm的源改成淘宝的就好了 我安装了nrm 所以直接

大数据学习(一) | 初识 Hadoop

让人想犯罪 __ 提交于 2020-04-24 20:23:35
作者: seriouszyx 首发地址: https://seriouszyx.top/ 代码均可在 Github 上找到(求Star) 最近想要了解一些前沿技术,不能一门心思眼中只有 web,因为我目前对 Java 语言及其生态相对熟悉,所以在网上搜集了 Hadoop 相关文章,并做了整合。 本篇文章在于对大数据以及 Hadoop 有一个直观的概念,并上手简单体验。 Hadoop 基础概念 Hadoop 是一个用 Java 实现的开源框架,是一个分布式的解决方案,将大量的信息处理所带来的压力分摊到其他服务器上。 在了解各个名词之前,我们必须掌握一组概念。 结构化数据 vs 非结构化数据 结构化数据 即行数据,存储在数据库里,可以用二维表结构来表达,例如:名字、电话、家庭住址等。 常见的结构化数据库为 mysql、sqlserver。 非结构化数据库 是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。无法用结构化的数据模型表示,例如:文档、图片、声音、视频等。在大数据时代,对非关系型数据库的需求日益增加,数据库技术相应地进入了“后关系数据库时代”。 非结构化数据库代表为 HBase、mongodb。 可以大致归纳,结构化数据是先有结构、再有数据;非结构化数据是先有数据、再有结构。 Hadoop 是大数据存储和计算的开山鼻祖

spark thriftserver

ⅰ亾dé卋堺 提交于 2020-04-24 18:09:51
spark可以作为一个分布式的查询引擎,用户通过JDBC/ODBC的形式无需写任何代码,写写sql就可以实现查询啦,那么我们就可以使用一些支持JDBC/ODBC连接的BI工具(比如tableau)来生成一些报表。 spark thriftserver的实现也是相当于hiveserver2的方式,并且在测试时候,即可以通过hive的beeline测试也可以通过spark bin/下的beeline,不管通过哪个beeline链接,都要指定spark thriftserver的主机和端口(默认是10000),比如 beeline> !connect jdbc:hive2: // host_ip:port spark thriftserver启动之后实质上就是一个Spark的应用程序,并且也可以通过4040端口来查看web ui界面,但是这个应用程序它支持JDBC/ODBC的连接,如下: 配置 接上文 编译spark支持thriftserver 编译完成的spark包,在sbin目录下可以看到有start-thriftserver.sh和stop-thriftserver.sh脚本 默认情况下,可以这样启动thriftserver,但是很少这样用 ./sbin/start-thriftserver. sh 可以像使用spark-submit一样输入一些相关的参数,比如--master