yarn

Hadoop环境搭建(centos)

为君一笑 提交于 2020-04-23 10:15:43
Hadoop环境搭建(centos) 本平台密码83953588abc 配置Java环境 下载JDK(本实验从/cgsrc 文件中复制到指定目录) mkdir /usr/local/java cp /cgsrc/jdk-8u171-linux-x64.tar.gz /usr/local/java/ JDK至少1.8以上!!! 解压JDK安装包 cd /usr/local/java tar -zxvf jdk-8u171-linux-x64.tar.gz rm -f jdk-8u171-linux-x64.tar.gz 添加环境变量 配置JAVA_HOME环境变量。修改文件 vim ~/.bashrc export JAVA_HOME=/usr/local/java/jdk1.8.0_171 export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar export PATH=$PATH:${JAVA_HOME}/bin 如果PATH环境变量修改错误,则可能出现Linux常用命令无法找到的现象!!! 使修改环境生效, source ~/.bashrc . 检查是否设置正确. echo $JAVA_HOME #检查变量值 java -version #查看java版本 配置分布式模式

spark面试题

时光总嘲笑我的痴心妄想 提交于 2020-04-23 03:04:08
1.Spark 消费Kafka,分布式的情况下,如何保证消息的顺序? Kafka分布式的单位是Partition,如何保证消息有序,需要分一下几个条件讨论。 同一个Partition用一个 write ahead log 组织,所以可以保证FIFO的顺序。 不同Partition之间不能保证顺序但是绝大多数用户可以通过 message key 来定义,因为同一个key的 message 可以保证只发送到同一个Partition。如果说key是user id, table row id 等等,所以同一个user 或者同一个 record 的消息永远只会发送到同一个 Partition 上,保证了同一个 user 或 record 的顺序。 当然,如果你有 key skewnes就有些麻烦,需要谨慎处理。 实际情况中,(1)不关注顺序的业务大量存在,队列无序不代表消息无序。(2)我们不保证队列的全局有序,但可以保证消息的局部有序,举个例子:保证来自同一个order id 的消息,是有序的。Kafka中发送1条消息的时候,可以指定(topic,partition,key) 3个参数。partition和key是可选的,如果你指partition,那就是所有消息发往同一个partition,就是有序的,而且在消费端,Kafka保证,1个partition只能被一个consumer消费

浅谈Flink

本秂侑毒 提交于 2020-04-22 21:10:37
浅谈Flink Apache Flink 是一个面向数据流处理和批量数据处理的分布式的开源计算框架,能够支持流处理和批处理两种应用类型。有着低延迟、Exactly-once 保证,而批处理需要支持高吞吐、高效处理的特点。 Flink 完全支持流处理,也就是说作为流处理看待时,输入数据流是无界的;批处理被作为一种特殊的流处理,只是它的输入数据流被定义为有界的。这与 Spark streaming 不同,Spark streaming 是将流处理视为无限个有界的批处理(microbatch)。 Flink 特点 有状态计算的 Exactly-once 语义。状态是指 flink 能够维护数据在时序上的聚类和聚合,同时它的 checkpoint 机制可以方便快速的做出失败重试; 支持带有事件时间(event time)语义的流处理和窗口处理。事件时间的语义使流计算的结果更加精确,尤其在事件到达无序或者延迟的情况下; 支持高度灵活的窗口(window)操作。支持基于 time、count、session,以及 data-driven 的窗口操作,能很好的对现实环境中的创建的数据进行建模; 轻量的容错处理(fault tolerance)。它使得系统既能保持高的吞吐率又能保证 exactly-once 的一致性。通过轻量的 state snapshots 实现; 支持高吞吐、低延迟

大数据Hadoop入门到精通 (精品课程)

心已入冬 提交于 2020-04-20 18:27:28
视频列表 大数据与Hadoop(PPT在本节附件,【登电脑端才能下载】 Hadoop集群搭建1 Hadoop集群搭建2 Hadoop主要的通信方式 序列化与反序列化 HDFS介绍—分布式文件系统 HDFS的GUI和CLI HDFS的Client HDFS的NameNode HDFS的DataNode HDFS的读写流程和版本升级 HDFS的高可用 HDFS的一致性、设置和联邦 分布式计算的历史与介绍 MapReduce编程 使用maven进行Mapreduce开发 Map端处理过程 Shuffle过程 Reduce端处理过程 排序与计数器 数据倾斜的处理 大数据算法 YARN简介 YARN的ResourceManager YARN的NodeManager YARN的调度器 YARN一次作业的提交流程 YARN的故障恢复 数据仓库和Hive 其他计算框架和OLAP系统 大数据职业发展 来源: oschina 链接: https://my.oschina.net/u/4394131/blog/3285621

从剖析Vue-cli源码出发完整的React业务脚手架实践(一)——脚手架架构基础搭建

为君一笑 提交于 2020-04-20 12:18:13
随着公司业务线增加了以后,基础脚手架已经满足不了需求,于是开始着手业务线的脚手架开发,我基于vue cli源码和自己的业务实践,吸取vue-cli插件模式的开发优势和业务结合,做一套关于React的项目脚手架。 写在前面 这是一篇长期持续更新的React脚手架实践,为的是吸取Vue Cli的脚手架经验,通过我们习惯的 插件-预设 的思想去构造我们的React业务脚手架,这可能不是最好的脚手架的开发实践,但是一定是 最完整的脚手架开发实践 。 全套实践我们将通过现有的vue cli源码一一解说的方式进行,一方面是为了熟悉成熟脚手架的代码实现,另一方面是为了完善自己的代码和实践的理解,让大家在自己开发脚手架或者学习的过程中,能有更深刻的认识。 脚手架架构 首先我们先给脚手架取个酷炫的名字吧,当时在做的时候突然看到一个图很酷,如下,是一个猫在抽烟 然后当时就爆出来杨超越的拍的照片有香烟的的新闻,当时解释到说是她家的猫在吸烟,当时就觉得就这个吧,感觉很酷炫!然后就取名叫做 cat-smoker 吧! 名字取完了,前期准备得整理一下架构思路和流程图,我自己整理出基于vue-cli的脚手架思维逻辑导图如下: 我们一开始的主体架构是两方面,一个是 cli 还有一个是 cli-service ,一个 主要在插件的基础上提供构造项目的能力 , 另外一个是为构造的项目提供基础服务(serve

electron教程(四): 使用electron-builder或electron-packager将项目打包为可执行桌面程序(.exe)

冷暖自知 提交于 2020-04-20 10:33:55
我的electron教程系列 electron教程(一): electron的安装和项目的创建 electron教程(番外篇一): 开发环境及插件, VSCode调试, ESLint + Google JavaScript Style Guide代码规范 electron教程(番外篇二): 使用TypeScript版本的electron, VSCode调试TypeScript, TS版本的ESLint electron教程(二): http服务器, ws服务器, 子进程管理 electron教程(三): 使用ffi-napi引入C++的dll electron教程(四): 使用electron-builder或electron-packager将项目打包为可执行桌面程序(.exe) #引言 本篇将介绍如何将你开发的electron项目(main.js), 打包成一个可执行桌面程序(.exe). 有两个流行的工具可以做到这一点: electron-builder 和 electron-packager . 我不会详细地对比两者的优劣, 但会通过三个事实来帮助你选择合适的工具. 1. electron-builder 的Star为7.7k, electron-packager 的Star为6.6k. 2. 根据 electron-builder 的作者介绍, electron

Yarn 调度器Scheduler详解

故事扮演 提交于 2020-04-20 04:21:57
Heaven-Wang 最后发布于2015-10-30 11:32:35 阅读数 17924 收藏 14 展开 理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。 一、调度器的选择 在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,FairS cheduler。 FIFO Scheduler把应用按提交的 顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分配资源,待最头上的应用需求满足后再给下一个分配 ,以此类推。 FIFO Scheduler是最简单也是最容易理解的调度器,也不需要任何配置,但它并不适用于共享集群。大的应用可能会占用所有集群资源,这就导致其它应用被阻塞。在共享集群中,更适合采用Capacity Scheduler或Fair Scheduler,这两个调度器都允许大任务和小任务在提交的同时获得一定的系统资源。 下面“Yarn调度器对比图”展示了这几个调度器的区别

大数据篇:Spark

我只是一个虾纸丫 提交于 2020-04-19 17:01:24
大数据篇:Spark Spark是什么 Spark是一个快速(基于内存),通用,可扩展的计算引擎,采用Scala语言编写。2009年诞生于UC Berkeley(加州大学伯克利分校,CAL的AMP实验室),2010年开源,2013年6月进入Apach孵化器,2014年成为Apach顶级项目,目前有1000+个活跃者。就是说用Spark就对了。 Spark支持Scala,Java,R,Python语言,并提供了几十种(目前80+种)高性能的算法,这些如果让我们自己来做,几乎不可能。 Spark得到众多公司支持,如:阿里、腾讯、京东、携程、百度、优酷、土豆、IBM、Cloudera、Hortonworks等。 如果没有Spark 解决MapReduce慢的问题而诞生,官网解释比同样的MapReduce任务快100倍! spark.apache.org 1 内置模块 机器学习(MLlib),图计算(GraphicX),实时处理(SparkStreaming),SQL解析(SparkSql) 1.1 集群资源管理 Spark设计为可以高效的在一个计算节点到数千个计算节点之间伸缩计算,为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群资源管理器上运行,目前支持的3种如下:(上图中下三个) Hadoop YARN(国内几乎都用) Apach Mesos(国外使用较多)

Ant Design Vue Pro 项目实战-项目初始化(一)

£可爱£侵袭症+ 提交于 2020-04-19 06:05:55
写在前面 时间真快,转眼又是新的一年。随着前后端技术的不断更新迭代,尤其是前端,在目前前后端分离开发模式这样的一个大环境下,交互性、兼容性等传统的开发模式已经显得有些吃力。之前一直用的是react,随着后面钩子的加入更让人爱不释手,但是整个团队需要更新技术,这里选择了更容易上手的Vue(这里的容易上手并没有歧义,指的是更容易适应),也相信Vue3.0发布后会更好,毕竟没有大公司的限制。选择Vue后很纠结,看了几个框架基本都缺少很多组件、需要自己造轮子。后面决定使用Ant Design Vue(Pro),引用Vue官网的一句话就是“Ant Design Pro 是一个企业级中后台前端/设计解决方案,我们秉承 Ant Design 的设计价值观,致力于在设计规范和基础组件的基础上,继续向上构建,提炼出典型模板/业务组件/配套设计资源,进一步提升企业级中后台产品设计研发过程中的『用户』和『设计者』的体验。” 相关地址: 代码(码云镜像): https://gitee.com/sendya/ant-design-pro-vue 代码(GitHub) : https://github.com/sendya/ant-design-pro-vue 在线预览地址 : https://preview.pro.loacg.com/user/login?redirect=%2Fdashboard

hadoop搭建集群

。_饼干妹妹 提交于 2020-04-19 01:05:01
**hadoop搭建集群** 1、关闭防火墙 1)查看防火墙状态 firewall-cmd --state 2)停止firewall systemctl stop firewalld.service 3)禁止firewall开机启动 systemctl disable firewalld.service 2、时间同步 命令行输入:yum install ntp 下载ntp插件 , 下载完成后 命令行输入:ntpdate -u ntp1.aliyun.com 然后命令行输入:date 如果出现如下情况表示配置成功: 3、配置服务器(我这里是以4台为例) 1个主节点:doop1(192.168.0.103),2个(从)子节点,doop2(192.168.0.104),doop3(192.168.0.105),doop4(192.168.0.106) 2、配置主节点名(192.168.0.103) 在命令行输入: vi /etc/sysconfig/network 添加内容: NETWORKING=yes HOSTNAME=doop1 配置三台子节点名(192.168.0.104),(192.168.0.105),(192.168.0.106): vi /etc/sysconfig/network 添加内容: NETWORKING=yes HOSTNAME=doop2 vi /etc