yarn

[Yarn] Use yarn up to Update Dependencies In A Yarn Workspace

谁说我不能喝 提交于 2020-01-27 22:53:59
Yarn 2 is workspace aware. When you need to upgrade a package in one workspace, yarn will ask you if you want to resolve the version of the package to a version you use in a different packag We use yarn up -i to upgrade a package with an old version. 来源: https://www.cnblogs.com/Answer1215/p/12237049.html

[Yarn] Install Yarn2

被刻印的时光 ゝ 提交于 2020-01-27 22:50:59
This lesson goes over how to install yarn 2 through npm. To install yarn 2 globally, we use npm install -g yarn@berry Init a project: yarn init -y To install yarn 2 to a specific project, we use yarn policies set-version berry This creates a .yarnrc file and a .yarn/ directory. .yarnrc that sets the path to our yarn instance in the created .yarn/ directory that holds our new yarn version. 来源: https://www.cnblogs.com/Answer1215/p/12237021.html

Ubuntu下编译 Hadoop2.9

我们两清 提交于 2020-01-26 23:19:22
Ubuntu 下编译 Hadoop-2.9.2 系统环境 系统: ubuntu-18.10-desktop-amd64 maven: Apache Maven 3.6.0 jdk: jdk_1.8.0_201 ProtocolBuffer: portoc-2.5.0 OpenSSL: OpenSSL 1.1.1 cmake: cmake3.12.1 hadoop: hadoop-2.9.2 安装所需环境 # 安装各种所需依赖库 $ sudo apt-get install autoconf automake libtool zlib1g-dev pkg-config libssl-dev libsnappy-dev libbz2-dev # 安装ssh-server $ sudo apt-get install ssh-server # 安装openssl $ sudo apt-get install openssl # 安装cmake $ sudo apt-get install cmake # 安装编译c++库 $ sudo apt-get install g++ # 安装protobuf # 下载protobuf-2.5.0 $ wget https://github.com/protocolbuffers/protobuf/releases/download/v2.5.0

Spark学习之路 (七)Spark 运行流程[转]

点点圈 提交于 2020-01-26 18:07:06
Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext (3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些task,并且负责将数据存在内存或者磁盘上。在Spark on Yarn模式下,其进程名称为 CoarseGrainedExecutor Backend,一个CoarseGrainedExecutor Backend进程有且仅有一个executor对象,它负责将Task包装成taskRunner,并从线程池中抽取出一个空闲线程运行Task,这样,每个CoarseGrainedExecutorBackend能并行运行Task的数据就取决于分配给它的CPU的个数。 (4)Worker:集群中可以运行Application代码的节点。在Standalone模式中指的是通过slave文件配置的worker节点,在Spark on Yarn模式中指的就是NodeManager节点。 (5)Task:在Executor进程中执行任务的工作单元,多个Task组成一个Stage (6)Job

Spark学习之路 (一)Spark初识 [转]

 ̄綄美尐妖づ 提交于 2020-01-26 18:03:01
官网介绍 什么是Spark 官网地址: http://spark.apache.org/ Apache Spark™ 是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能。 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式,包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算,Spark依然比MapReduce更加高效。 为什么要学Spark 中间结果输出: 基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的,考虑,当一些查询翻译到MapReduce任务时,往往会产生多个Stage,而这些串联的Stage又依赖于底层文件系统(如HDFS)来存储每一个Stage的输出结果。 Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。 Spark的四大特性 高效性 运行速度提高100倍。 Apache Spark使用最先进的DAG调度程序,查询优化程序和物理执行引擎,实现批量和流式数据的高性能。 易用性

linux常用命令总结

六月ゝ 毕业季﹏ 提交于 2020-01-26 15:02:58
一:常用sql 1)查看分区 hadoop fs -ls /hive/warehouse/managed/dwd_data.db/dwd_gen_track_oneapp_log_df 2)添加分区 alter table dwd_gen_track_oneapp_log_df add partition ( partition_date = '2019-10-24' ) ; 添加分区 3)删除分区 alter table dwd_gen_track_oneapp_log_df drop partition ( pt = '2019-10-22' ) ; 删除分区 4)杀死yarn进程 yarn application - kill application_1571219160975_3186 杀死yarn进程 5)查看分区 show partitions 表名 查看分区 6)删除表数据 truncate table 表名 删除表数据 7)外部表转内部表 alter table tableA set TBLPROPERTIES ( 'EXTERNAL' = 'false' ) 外部表转内部表 8)查看表结构的详细信息 desc formatted table ; 9)删除表 DROP TABLE IF EXISTS table ; 删除表 10)本地导入到hive load

Apache Spark

风流意气都作罢 提交于 2020-01-26 05:49:14
Apache Spark 一、概述 官方地址: http://spark.apache.org/ Lightning-fast unified analytics engine : 快如闪电的统一分析引擎 快如闪电: Spark基于内存式计算,分布式并行计算框架。不同于MapReduce框架,基于磁盘式计算,将Job粗粒度的分为MapTask、ReduceTask,并且必须通过网络进行数据交互。 Spark任务执行时,实际上会将一个复杂的科学计算划分一个个的Stage(阶段),每一个Stage都支持分布式的并行计算 Spark计算时,每一个Stage计算结果都可以进行缓存,可以非常容易的进行故障恢复和结果重用 统一: 集结了大数据处理的主流方案 批处理(RDD:代替MapReduce) 流处理(Streaming:代替Storm、Kafka Streaming) 机器学习(Machine Learing: 代替Mahout) 交互式查询(SQL:代替Hive) 图形计算(GraphX) 分析引擎:代替MapReduce 特点 速度: 相对于MapReduce的计算,效率极高。Spark将复杂的Job分解为若个Stage,每一个Stage都可以进行分布式并行计算,称为DAG(Directed Acyclic Graph)有向无环图,类似于Kafka Streaming

大数据之Hadoop环境搭建

好久不见. 提交于 2020-01-26 03:38:41
Hadoop由GNU / Linux平台及其版本支持。因此,我们必须安装一个Linux操作系统来设置Hadoop环境。如果您有除Linux以外的操作系统,您可以在其中安装Virtualbox软件,并在Virtualbox内部安装Linux。 安装前设置 在将Hadoop安装到Linux环境之前,我们需要使用ssh(Secure Shell)来设置Linux。按照以下步骤设置Linux环境。 创建用户 在开始时,建议为Hadoop创建一个单独的用户,以便将Hadoop文件系统与Unix文件系统隔离。按照以下步骤创建用户: 使用命令“su”打开根。 使用命令“useradd username”从root帐户创建用户。 现在您可以使用命令“su username”打开现有的用户帐户。 打开Linux终端并键入以下命令以创建用户。 $ su password: # useradd hadoop # passwd hadoop New passwd: Retype new passwd SSH设置和密钥生成 需要SSH设置在集群上执行不同的操作,如启动,停止,分布式守护程序shell操作。要对Hadoop的不同用户进行身份验证,需要为Hadoop用户提供公钥/私钥对,并与不同的用户共享。 以下命令用于使用SSH生成键值对。将公共密钥表单id_rsa.pub复制到authorized_keys

【Spark】(六)Spark 运行流程

≡放荡痞女 提交于 2020-01-25 15:11:32
文章目录 一、Spark中的基本概念 二、Spark的运行流程 2.1 Spark的基本运行流程 1、说明 2、图解 3、Spark运行架构特点 4、DAGScheduler 5、TaskScheduler 6、SchedulerBackend 7、Executor 三、Spark在不同集群中的运行架构 3.1 Spark on Standalone运行过程 3.2 Spark on YARN运行过程 3.2.1 YARN框架流程 3.2.2 YARN-Client 3.2.3 YARN-Cluster 3.2.4 YARN-Client 与 YARN-Cluster 区别 一、Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext (3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些task,并且负责将数据存在内存或者磁盘上。在Spark on Yarn模式下,其进程名称为 CoarseGrainedExecutor Backend,一个CoarseGrainedExecutor

ubuntu安装鲁班H5

时间秒杀一切 提交于 2020-01-25 13:57:54
环境需要 node, git,npm,yarn 项目中所需 sudo apt-get install autoconf libpng-dev 1、下载文件 git clone https://github.com/ly525/luban-h5.git 2、启动后台 # 默认当前目录为 luban 项目的根目录 cd back-end/h5-api yarn # 安装依赖 npm run dev 提示: yarn报错error An unexpected error occurred: 则换npm源 npm config set registry https://registry.npm.taobao.org npm config set disturl https://npm.taobao.org/dist 3、前端 cd front-end/h5 yarn install yarn build:engine npm run dev 来源: CSDN 作者: 表演系小学渣 链接: https://blog.csdn.net/weixin_41996632/article/details/103896378