yarn | 易学教程

###好好好####JanusGraph批量导入数据优化

阅读更多关于 ###好好好####JanusGraph批量导入数据优化

JanusGraph批量导入数据优化批量导入工具： https://github.com/dengziming/janusgraph-util 批量导入配置项 storage.batch-loading =true 导入的数据必须具有一致性并且和已存在的数据必须具有一致性。（比如：name数据是具有唯一索引（a unique composite index），那么导入的数据在name属性上上和已有的数据不能重复）下面是优化配置，优化的目的，就是减少批量导入时间。 ID 分配优化 ID Block Size ids.block-size 配置项，JanusGraph实例通过id池管理对象从id blocks中获取ids值为新加入的vertex、edge分配唯一id，为了保证库唯一性，所以获取id block（id块）是昂贵的（因为存在多个实例竞争），所以增加block-size可以减少获取block的次数，但是值过大会导致多余的id被浪费掉。一般情况下事务的负载，ids.block-size的默认值是满足要求的。但是对于批量导入时，需要调节值为每个JanusGraph实例需要添加节点和边数的10倍。该配置项在集群中所有实例上值必须唯一。 ID Acquisition Process 1) ids.authority.wait-time 配置毫秒：id池管理器允许id

了解统一资源管理与调度系统的这几点，轻松搞懂 spark ！

阅读更多关于了解统一资源管理与调度系统的这几点，轻松搞懂 spark ！

你好，我是你的 Spark 老师范东来，本文来自拉勾教育专栏《即学即用的 Spark 实战 44 讲》这个课时我将为你介绍：“统一资源管理与调度系统的设计和实现”。 Hadoop 2.0 与 Hadoop 1.0 最大的变化就是引入了 YARN，而 Spark 在很多情况下，往往也是基于 YARN 运行，所以，相比于分布式文件系统 HDFS，YARN 是一个比较关键的组件，承担着计算资源管理与调度的工作，所以本课时将对其进行深入讨论，先务虚再务实，主要内容如下：统一资源管理与调度系统的设计；统一资源管理与调度系统的实现——YARN。统一资源管理与调度系统的设计 YARN 的全称是 Yet Another Resource Negotiator，直译过来是：另一种资源协调者，但是它的标准名称是统一资源管理与调度系统，这个名称比较抽象，当遇到这种抽象的名词时，我喜欢把概念拆开来看，那么这个名称一共包含 3 个词：统一、资源管理、调度。来看看第 1 个词语：统一对于大数据计算框架来说，统一指的是资源并不会与计算框架绑定，对于所有计算框架来说，所有资源都是无差别的，也就是说这个系统可以支持多种计算框架，但这是狭义的统一，我们理解到这里就可以了。而广义上的统一，是指资源针对所有应用来说都是无差别的，包括长应用、短应用、数据库、后端服务，等等。来看看第 2 个词语：资源管理

java大数据最全课程学习笔记(2)--Hadoop完全分布式运行模式

阅读更多关于 java大数据最全课程学习笔记(2)--Hadoop完全分布式运行模式

目前 CSDN , 博客园 , 简书同步发表中,更多精彩欢迎访问我的 gitee pages 目录 Hadoop完全分布式运行模式步骤分析: 编写集群分发脚本xsync 集群配置集群部署规划配置集群集群单点启动 SSH无密登陆配置登录状态的环境变量群起集群集群启动/停止方式总结集群时间同步其他注意事项 Hadoop完全分布式运行模式步骤分析: 准备3台客户机（关闭防火墙、静态ip、主机名称） vim /etc/sysconfig/network 三台机器各自的配置分别为HOSTNAME=hadoop101;HOSTNAME=hadoop102;HOSTNAME=hadoop103 vim /etc/hosts 三台机器都加入下面的映射关系 192.168.1.101 hadoop101 192.168.1.102 hadoop102 192.168.1.103 hadoop103 安装JDK 配置环境变量安装Hadoop 配置环境变量配置集群单点启动配置ssh 群起并测试集群由于在上一章节已经配置好环境并测试了hadoop伪分布式开发模式,所以在此不再赘述. 编写集群分发脚本xsync scp(secure copy) 安全拷贝(全量复制) scp定义 scp可以实现服务器与服务器之间的数据拷贝.（from server1 to server2）

Spark-submit常用任务命令参数和说明

阅读更多关于 Spark-submit常用任务命令参数和说明

Spark常用任务命令参数和说明 spark-submit \ --name task2018072711591669 \ --master yarn --deploy-mode client \ --jars sparklistener-0.0.3-SNAPSHOT.jar \ --conf spark.extraListeners=com.etf.spark.listener.EtfJavaListener \ --py-files service.json,\ freq.py,\ helpers.py,\ spark_template_module.py,\ status.py,\ user_spark_run.py, \ spark_logger.py \ spark_main.py 参数解释参数名称值作用 --name 任务名称 --master yarn 部署模式 --deploy-mode Client 驱动模式 --jars Jar包名称执行任务附加的包名称 --conf 配置参数配置参数，有多个参数可以配置 --py-files Py文件列表任务执行需要的py文件，可以是.py .zip等以逗号隔开 xx.py xx.py 任务主执行入口文件。Py或者java等 Spark并行执行参数命令示例： ./bin/spark-submit \ -

Hadoop HA高可用集群搭建详细过程(亲测四台有效）

阅读更多关于 Hadoop HA高可用集群搭建详细过程(亲测四台有效）

hadoop集群HA高可用搭建 ❀❀❀❀❀搭建前的简单介绍❀❀❀❀❀ 主机配置环境如下表： Hadoop HA原理: 在一典型的HA集群中，每个NameNode是一台独立的服务器。在任一时刻，只有一个NameNode处于active状态，另一个处于standby状态。其中，active状态的NameNode负责所有的客户端操作，standby状态的NameNode处于从属地位，维护着数据状态，随时准备切换(两种切换方式，选择手动切换和自动切换)。手动切换是通过命令实现主备之间的切换，可以用HDFS升级等场合，自动切换方案基于Zookeeper。两个NameNode为了数据同步，会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时，会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息，并且一直监控edit log的变化，把变化应用于自己的命名空间。standby可以确保在集群出错时，命名空间状态已经完全同步了。 HA集群的架构图将四台机子node01,node02,node03,node04，按如下HA安装方案图进行集群规划。 HA安装方案图 *表示虚拟机要配置该角色 hadoop 2.X介绍 Hadoop 2.x由 HDFS、MapReduce 和

super-graph 核心代码说明

阅读更多关于 super-graph 核心代码说明

内容来自官方文档，主要介绍下super-graph 的工具原理，对于学习源码还是比较有帮助的主要的子模块 qcode，处理graphql 语言以及解析的 psql sql 生成器 serv http 服务，配置以及cli rails rails cookies && session 存储解码器组件说明 qcode 主要处理grapql 的解析以及转换，通过 func NewCompiler(c Config) 创建，注意qcode 不关心数据库结构核心是处理graphql 的解析核心代码： const ( opQuery opMutate ... ) type QCode struct { Type QType Selects [] Select ... } type Select struct { ID int32 ParentID int32 Args map[ string] * Node Name string FieldName string Cols [] Column Where * Exp OrderBy [] * OrderBy DistinctOn [] string Paging Paging Children [] int32 Functions bool Allowed map[ string] struct{} PresetMap map[

Spark性能优化指南——高级篇

阅读更多关于 Spark性能优化指南——高级篇

Spark性能优化指南——高级篇 2016年05月12日作者: 李雪蕤文章链接 23095字 47分钟阅读继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈，是我们写的业务代码造成的。这种情况比较少见。数据倾斜发生的原理数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对应10条数据，但是个别key却对应了100万条数据，那么大部分task可能就只会分配到10条数据

基于 React 开发了一个 Markdown 文档站点生成工具

阅读更多关于基于 React 开发了一个 Markdown 文档站点生成工具

Create React Doc 是一个使用 React 的 markdown 文档站点生成工具。就像 create-react-app 一样，开发者可以使用 Create React Doc 来开发、部署 markdown 站点或者博客而不用关心站点环境配置信息。特性零配置书写 markdown 文档站点。 markdown 文档支持懒加载以及热加载。基于文件目录自动生成多层级菜单。支持一键发布到 GitHub Pages . 使用 create-react-doc 搭建的文档站点 blog 快速上手执行如下命令: npx create-react-doc my-doc npm install && cd my-doc npm start 然后打开 http://localhost:3000/ 就可以看到文档站点。当准备发布到生产环境时，执行 npm run build 就能将文档站点打包压缩。使用 create-react-doc 非常容易上手。开发者不需要额外安装或配置 webpack 或者 Babel 等工具，它们被内置隐藏在脚手架中，因此开发者可以专心于文档的书写。下面提供三种方式来快速创建文档站点: npx npx create-react-doc my-doc npm npm init create-react-doc my-doc yarn yarn

vue 界面版ui使用

阅读更多关于 vue 界面版ui使用

mac 使用yarn brew install yarn 安装全局vue-cli全家桶： yarn global add @vue/cli 验证: node -v npm -v 打开界面 vue ui 本文由博客一文多发平台 OpenWrite 发布！来源： oschina 链接： https://my.oschina.net/u/4295105/blog/4330705

kerberos系列之flink认证配置

阅读更多关于 kerberos系列之flink认证配置

大数据安全系列的其它文章 https://www.cnblogs.com/bainianminguo/p/12548076.html-----------安装kerberos https://www.cnblogs.com/bainianminguo/p/12548334.html-----------hadoop的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12548175.html-----------zookeeper的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12584732.html-----------hive的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12584880.html-----------es的search-guard认证 https://www.cnblogs.com/bainianminguo/p/12639821.html-----------flink的kerberos认证 https://www.cnblogs.com/bainianminguo/p/12639887.html-----------spark的kerberos认证

订阅 yarn