yarn

Flink关键技术解析与优化实战

北慕城南 提交于 2020-12-03 22:42:42
作者刘建刚老师 刘建刚 快手软件工程师 现就职于快手数据架构部,当前主要工作为快手Flink平台的研发和维护; 曾就职于百度基础架构部。 本次分享主要分为三部分。首先介绍流式计算的基本概念,然后介绍Flink的关键技术,最后讲讲Flink在快手生产实践中的一些应用,包括实时指标计算和快速failover。 一、流式计算的介绍 流式计算的定义: 流式计算主要针对unbounded data(无界数据流)进行实时的计算,将计算结果快速的输出或者修正。 这部分将分为三个小节来介绍: 第一,介绍大数据系统发展史,包括初始的批处理到现在比较成熟的流计算 第二,为大家简单对比下批处理和流处理的区别 第三,介绍流式计算里面的关键问题,这是每个优秀的流式计算引擎所必须面临的问题。 1、大数据系统发展史 上图是2003年到2018年大数据系统的发展史,看看是怎么一步步走到流式计算的。 2003年,Google的MapReduce横空出世,通过经典的Map&Reduce定义和系统容错等保障来方便处理各种大数据。很快就到了Hadoop,被认为是开源版的MapReduce,带动了整个apache开源社区的繁荣。再往后是谷歌的Flume,通过算子连接等pipeline的方式解决了多个MapReduce作业连接处理低效的问题。 流式系统的开始以Storm来介绍。Storm在2011年出现,具备延时短

玩物得志:效率为王!如何构建大数据平台?

空扰寡人 提交于 2020-12-03 11:34:30
2018 年底,玩物得志从 0 开始,搭建技术团队,技术架构快速经历了服务化、平台化等转变。 为了支撑业务的快速发展,玩物得志极少自己造轮子,会大量采用云平台提供的 SaaS、PaaS 服务。比如大数据体系是在阿里云 DataWorks + MaxCompute 框架体系上建设起来。使用了其核心存储、计算等组件,上层的可视化以及业务查询部分,在使用过程中也会有大量的定制化需求,玩物得志在开源方案的基础上进行了一些二次开发。 之所以直接选择云产品搭建研发系统 ,张淼认为对于快速迭代的初创型企业来说,一切效率为王。 如果选择自己去搭建整个链路和基础设施,很难有现在这么快的发展速度。 早期,玩物的数据量比较小,所有业务数据都放在一个大的数据DB 的实例里,所以当时读库或者用订阅binlog方式打造一个分析库,就可以完成日常报表输出工作。跑SQL就足够了,这是数据体量小的时候通用的一个方案。当时没有大数据的概念,都是在Mysql上跑sql脚本,出数据报表,定期给到运营,这就是玩物得志早期的基本的架构。 从玩物得志APP 正式运转起来大概四五个月的时间,电商业务发展很快。2019年,每个月都是指数性增长,然后就发现Mysql查数据查不动了。我们就开始探索新的解决方案来帮助我们实现大数据平台的建设。之前我们更多是业务数据,比较简单,放在DB 里。在我们接入了埋点后,就要去拿日志

cannot start spark history server

我怕爱的太早我们不能终老 提交于 2020-12-03 07:49:54
问题 I am running spark on yarn cluster. I tried to start the history server ./start-history-server.sh but got the following errors. starting org.apache.spark.deploy.history.HistoryServer, logging to /home/abc/spark/spark-1.5.1-bin-hadoop2.6/sbin/../logs/spark-abc-org.apache.spark.deploy.history.HistoryServer-1-abc-Efg.out failed to launch org.apache.spark.deploy.history.HistoryServer: at org.apache.spark.deploy.history.FsHistoryProvider.<init>(FsHistoryProvider.scala:47) ... 6 more full log in

cannot start spark history server

点点圈 提交于 2020-12-03 07:49:43
问题 I am running spark on yarn cluster. I tried to start the history server ./start-history-server.sh but got the following errors. starting org.apache.spark.deploy.history.HistoryServer, logging to /home/abc/spark/spark-1.5.1-bin-hadoop2.6/sbin/../logs/spark-abc-org.apache.spark.deploy.history.HistoryServer-1-abc-Efg.out failed to launch org.apache.spark.deploy.history.HistoryServer: at org.apache.spark.deploy.history.FsHistoryProvider.<init>(FsHistoryProvider.scala:47) ... 6 more full log in

Caching npm dependency with github action

随声附和 提交于 2020-12-02 20:47:41
问题 I want to cache npm dependencies so that I does not do npm install every time I push and instead just load it from cache. I think github action support this now?: How do I cache steps in GitHub actions? Here are few cases If package.json changes, which means yarn.lock or package-lock.json changed so do npm install and update cache Extending my above point, the contributor could be doing both yarn install and npm install From the same above question, I changed my github action to something

Caching npm dependency with github action

与世无争的帅哥 提交于 2020-12-02 20:47:30
问题 I want to cache npm dependencies so that I does not do npm install every time I push and instead just load it from cache. I think github action support this now?: How do I cache steps in GitHub actions? Here are few cases If package.json changes, which means yarn.lock or package-lock.json changed so do npm install and update cache Extending my above point, the contributor could be doing both yarn install and npm install From the same above question, I changed my github action to something

ETL DAG调度策略

房东的猫 提交于 2020-11-30 02:31:24
1.目前etl的fetch task策略是基于任务子孙任务数和任务优先级获得task list 2.然后遍历task list 查看任务是否具备执行条件 集群资源校验(yarn/hdfs)<如果这里有性能瓶颈,可以抽出来做公共接口map,每10s更新一次> 数据是否准备好(仅mysql task具备),解决主从延迟问题 任务开始时间 任务的父任务是否都执行成功 3.每10s fetch一次task,遍历一次基于<2>的逻辑 我们把任务的父任务执行状态判断放到最后是想降低数据库查询成本(如果没放到最后,可以在exec_log表中维护一个依赖是否校验的状态去动态变更来减少数据库轮训查找成本) 我们如何避免,如 a->b->c 依赖关系,a还没完成又去校验b,b又没通过,又去校验c这种情况呢(如果此树较大,我们又是基于子孙任务数排序的话,会出现这种无谓遍历数据库的情况)。如果我们没有维护全局树及树中各任务的状态的话(成本较高,要时刻保证内存中的树与mysql表的任务状态同步)。 我们可以这么做(较少数据库的无谓遍历),在任务初始化时把任务依赖的dag加载的map中,并只维护任务与其一级子任务的关系如(<1,[2,3,4]> 父任务id:1,子任务id:2,3,4),然后在任务a校验没通过时,把a的一级子任务加入到list(此处不能放入set中,以为不能使用去重的集合

大数据技术之Hadoop(HDFS)

﹥>﹥吖頭↗ 提交于 2020-11-26 16:27:24
第1章 HDFS概述 1.1 HDFS 产出背景及定义 1.2 HDFS 优缺点 1.3 HDFS 组成架构 1.4 HDFS 文件块大小(面试重点) 第2章 HDFS的Shell操作(开发重点) 1 .基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2 .命令大全 [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p] <localsrc> ... <dst>] [-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-count [-q] <path> ...] [-cp [-f] [-p] <src> ... <dst>] [

大数据高端班划重点 hadoop常用四大模块文件

你说的曾经没有我的故事 提交于 2020-11-26 09:34:29
1.core-site.xml(工具模块)。包括Hadoop常用的工具类,由原来的Hadoopcore部分更名… 1.core-site.xml(工具模块)。包括Hadoop常用的工具类,由原来的Hadoopcore部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API。 2.hdfs-site.xml(数据存储模块)。分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问。为Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。 namenode+ datanode + secondarynode 划重点:通过系统实训成为一名起薪保底6K的大数据工程师。通过高效系统的学习路线、紧贴市场需求的技能图谱、紧密及时的答疑辅导,能够帮助学员最快入门、精通掌握技术语言,经过系统的实训顺利毕业并推荐到名企就业,实现人生转型。在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:957205962

以React框架及Antd组件开发前端项目

孤街醉人 提交于 2020-11-24 18:29:03
1、react项目构建使用脚手架:create-react-app 配置:antd UI框架配置和less配置 一、命令行依次输入如下的命令 npm install -g create-react-app create-react-app my-app cd my-app npm start npm install create-react-app yarn -g create-react-app your_project_name cd your_project_name yarn start yarn add antd --save ----安装antdesign 来源: oschina 链接: https://my.oschina.net/u/4672357/blog/4742207