yarn

###好好好####JanusGraph批量导入数据优化

允我心安 提交于 2020-08-06 04:23:20
JanusGraph批量导入数据优化 批量导入工具: https://github.com/dengziming/janusgraph-util 批量导入配置项 storage.batch-loading =true 导入的数据必须具有一致性并且和已存在的数据必须具有一致性。(比如:name数据是具有唯一索引(a unique composite index),那么导入的数据在name属性上上和已有的数据不能重复) 下面是优化配置,优化的目的,就是减少批量导入时间。 ID 分配优化 ID Block Size ids.block-size 配置项,JanusGraph实例通过id池管理对象从id blocks中获取ids值为新加入的vertex、edge分配唯一id,为了保证库唯一性,所以获取id block(id块)是昂贵的(因为存在多个实例竞争),所以增加block-size可以减少获取block的次数,但是值过大会导致多余的id被浪费掉。 一般情况下事务的负载,ids.block-size的默认值是满足要求的。但是对于批量导入时,需要调节值为每个JanusGraph实例需要添加节点和边数的10倍。 该配置项在集群中所有实例上值必须唯一。 ID Acquisition Process 1) ids.authority.wait-time 配置毫秒:id池管理器允许id

了解统一资源管理与调度系统的这几点,轻松搞懂 spark !

一个人想着一个人 提交于 2020-08-06 04:18:04
你好,我是你的 Spark 老师范东来,本文来自拉勾教育专栏 《即学即用的 Spark 实战 44 讲》 这个课时我将为你介绍:“统一资源管理与调度系统的设计和实现”。 Hadoop 2.0 与 Hadoop 1.0 最大的变化就是引入了 YARN,而 Spark 在很多情况下,往往也是基于 YARN 运行,所以,相比于分布式文件系统 HDFS,YARN 是一个比较关键的组件,承担着计算资源管理与调度的工作,所以本课时将对其进行深入讨论,先务虚再务实,主要内容如下: 统一资源管理与调度系统的设计; 统一资源管理与调度系统的实现——YARN。 统一资源管理与调度系统的设计 YARN 的全称是 Yet Another Resource Negotiator,直译过来是:另一种资源协调者,但是它的标准名称是统一资源管理与调度系统,这个名称比较抽象,当遇到这种抽象的名词时,我喜欢把概念拆开来看,那么这个名称一共包含 3 个词: 统一、资源管理、调度 。 来看看第 1 个词语:统一 对于大数据计算框架来说,统一指的是资源并不会与计算框架绑定,对于所有计算框架来说,所有资源都是无差别的,也就是说这个系统可以支持多种计算框架,但这是狭义的统一,我们理解到这里就可以了。而广义上的统一,是指资源针对所有应用来说都是无差别的,包括长应用、短应用、数据库、后端服务,等等。 来看看第 2 个词语:资源管理

java大数据最全课程学习笔记(2)--Hadoop完全分布式运行模式

女生的网名这么多〃 提交于 2020-08-06 03:44:40
目前 CSDN , 博客园 , 简书 同步发表中,更多精彩欢迎访问我的 gitee pages 目录 Hadoop完全分布式运行模式 步骤分析: 编写集群分发脚本xsync 集群配置 集群部署规划 配置集群 集群单点启动 SSH无密登陆配置 登录状态的环境变量 群起集群 集群启动/停止方式总结 集群时间同步 其他注意事项 Hadoop完全分布式运行模式 步骤分析: 准备3台客户机(关闭防火墙、静态ip、主机名称) vim /etc/sysconfig/network 三台机器各自的配置分别为HOSTNAME=hadoop101;HOSTNAME=hadoop102;HOSTNAME=hadoop103 vim /etc/hosts 三台机器都加入下面的映射关系 192.168.1.101 hadoop101 192.168.1.102 hadoop102 192.168.1.103 hadoop103 安装JDK 配置环境变量 安装Hadoop 配置环境变量 配置集群 单点启动 配置ssh 群起并测试集群 由于在 上一章节 已经配置好环境并测试了hadoop伪分布式开发模式,所以在此不再赘述. 编写集群分发脚本xsync scp(secure copy) 安全拷贝(全量复制) scp定义 scp可以实现服务器与服务器之间的数据拷贝.(from server1 to server2)

Spark-submit常用任务命令参数和说明

会有一股神秘感。 提交于 2020-08-05 19:39:26
Spark常用任务命令参数和说明 spark-submit \ --name task2018072711591669 \ --master yarn --deploy-mode client \ --jars sparklistener-0.0.3-SNAPSHOT.jar \ --conf spark.extraListeners=com.etf.spark.listener.EtfJavaListener \ --py-files service.json,\ freq.py,\ helpers.py,\ spark_template_module.py,\ status.py,\ user_spark_run.py, \ spark_logger.py \ spark_main.py 参数解释 参数名称 值 作用 --name 任务名称 --master yarn 部署模式 --deploy-mode Client 驱动模式 --jars Jar包名称 执行任务附加的包名称 --conf 配置参数 配置参数,有多个参数可以配置 --py-files Py文件列表 任务执行需要的py文件,可以是.py .zip等 以逗号隔开 xx.py xx.py 任务主执行入口文件。Py或者java等 Spark并行执行参数 命令示例: ./bin/spark-submit \ -

Hadoop HA高可用集群搭建详细过程(亲测四台有效)

北战南征 提交于 2020-08-05 18:49:28
hadoop集群HA高可用搭建 ❀❀❀❀❀搭建前的简单介绍❀❀❀❀❀ 主机配置环境如下表: Hadoop HA原理:    在一典型的HA集群中,每个NameNode是一台独立的服务器。在任一时刻,只有一个NameNode处于active状态,另一个处于standby状态。其中,active状态的NameNode负责所有的客户端操作,standby状态的NameNode处于从属地位,维护着数据状态,随时准备切换(两种切换方式,选择手动切换和自动切换)。手动切换是通过命令实现主备之间的切换,可以用HDFS升级等场合,自动切换方案基于Zookeeper。两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时,命名空间状态已经完全同步了。 HA集群的架构图 将四台机子node01,node02,node03,node04,按如下HA安装方案图进行集群规划。 HA安装方案图 *表示虚拟机要配置该角色 hadoop 2.X介绍  Hadoop 2.x由 HDFS、MapReduce 和

super-graph 核心代码说明

北慕城南 提交于 2020-08-05 10:37:42
内容来自官方文档,主要介绍下super-graph 的工具原理,对于学习源码还是比较有帮助的 主要的子模块 qcode, 处理graphql 语言以及解析的 psql sql 生成器 serv http 服务,配置以及cli rails rails cookies && session 存储解码器 组件说明 qcode 主要处理grapql 的解析以及转换,通过 func NewCompiler(c Config) 创建,注意qcode 不关心数据库结构 核心是处理graphql 的解析 核心代码: const ( opQuery opMutate ... ) type QCode struct { Type QType Selects [] Select ... } type Select struct { ID int32 ParentID int32 Args map[ string] * Node Name string FieldName string Cols [] Column Where * Exp OrderBy [] * OrderBy DistinctOn [] string Paging Paging Children [] int32 Functions bool Allowed map[ string] struct{} PresetMap map[

Spark性能优化指南——高级篇

泄露秘密 提交于 2020-08-05 07:21:42
Spark性能优化指南——高级篇 2016年05月12日 作者: 李雪蕤 文章链接 23095字 47分钟阅读 继 基础篇 讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写的业务代码造成的。这种情况比较少见。 数据倾斜发生的原理 数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。比如大部分key对应10条数据,但是个别key却对应了100万条数据,那么大部分task可能就只会分配到10条数据

基于 React 开发了一个 Markdown 文档站点生成工具

早过忘川 提交于 2020-08-05 06:22:07
Create React Doc 是一个使用 React 的 markdown 文档站点生成工具。就像 create-react-app 一样,开发者可以使用 Create React Doc 来开发、部署 markdown 站点或者博客而不用关心站点环境配置信息。 特性 零配置书写 markdown 文档站点。 markdown 文档支持懒加载以及热加载。 基于文件目录自动生成多层级菜单。 支持一键发布到 GitHub Pages . 使用 create-react-doc 搭建的文档站点 blog 快速上手 执行如下命令: npx create-react-doc my-doc npm install && cd my-doc npm start 然后打开 http://localhost:3000/ 就可以看到文档站点。当准备发布到生产环境时,执行 npm run build 就能将文档站点打包压缩。 使用 create-react-doc 非常容易上手。开发者不需要额外安装或配置 webpack 或者 Babel 等工具,它们被内置隐藏在脚手架中,因此开发者可以专心于文档的书写。 下面提供三种方式来快速创建文档站点: npx npx create-react-doc my-doc npm npm init create-react-doc my-doc yarn yarn

vue 界面版ui使用

我与影子孤独终老i 提交于 2020-08-04 19:04:11
mac 使用yarn brew install yarn 安装全局vue-cli全家桶: yarn global add @vue/cli 验证: node -v npm -v 打开界面 vue ui 本文由博客一文多发平台 OpenWrite 发布! 来源: oschina 链接: https://my.oschina.net/u/4295105/blog/4330705

kerberos系列之flink认证配置

我们两清 提交于 2020-08-04 18:32:17
大数据安全系列的其它文章 https://www.cnblogs.com/bainianminguo/p/12548076.html-----------安装kerberos https://www.cnblogs.com/bainianminguo/p/12548334.html-----------hadoop的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12548175.html-----------zookeeper的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12584732.html-----------hive的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12584880.html-----------es的search-guard认证 https://www.cnblogs.com/bainianminguo/p/12639821.html-----------flink的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12639887.html-----------spark的kerberos认证