yarn | 易学教程

[Yarn] Use yarn up to Update Dependencies In A Yarn Workspace

阅读更多关于 [Yarn] Use yarn up to Update Dependencies In A Yarn Workspace

Yarn 2 is workspace aware. When you need to upgrade a package in one workspace, yarn will ask you if you want to resolve the version of the package to a version you use in a different packag We use yarn up -i to upgrade a package with an old version. 来源： https://www.cnblogs.com/Answer1215/p/12237049.html

[Yarn] Install Yarn2

阅读更多关于 [Yarn] Install Yarn2

This lesson goes over how to install yarn 2 through npm. To install yarn 2 globally, we use npm install -g yarn@berry Init a project: yarn init -y To install yarn 2 to a specific project, we use yarn policies set-version berry This creates a .yarnrc file and a .yarn/ directory. .yarnrc that sets the path to our yarn instance in the created .yarn/ directory that holds our new yarn version. 来源： https://www.cnblogs.com/Answer1215/p/12237021.html

Ubuntu下编译 Hadoop2.9

阅读更多关于 Ubuntu下编译 Hadoop2.9

Ubuntu 下编译 Hadoop-2.9.2 系统环境系统： ubuntu-18.10-desktop-amd64 maven： Apache Maven 3.6.0 jdk: jdk_1.8.0_201 ProtocolBuffer： portoc-2.5.0 OpenSSL： OpenSSL 1.1.1 cmake： cmake3.12.1 hadoop： hadoop-2.9.2 安装所需环境 # 安装各种所需依赖库 $ sudo apt-get install autoconf automake libtool zlib1g-dev pkg-config libssl-dev libsnappy-dev libbz2-dev # 安装ssh-server $ sudo apt-get install ssh-server # 安装openssl $ sudo apt-get install openssl # 安装cmake $ sudo apt-get install cmake # 安装编译c++库 $ sudo apt-get install g++ # 安装protobuf # 下载protobuf-2.5.0 $ wget https://github.com/protocolbuffers/protobuf/releases/download/v2.5.0

Spark学习之路（七）Spark 运行流程[转]

阅读更多关于 Spark学习之路（七）Spark 运行流程[转]

Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContext （3）Executor：某个Application运行在Worker节点上的一个进程，该进程负责运行某些task，并且负责将数据存在内存或者磁盘上。在Spark on Yarn模式下，其进程名称为 CoarseGrainedExecutor Backend，一个CoarseGrainedExecutor Backend进程有且仅有一个executor对象，它负责将Task包装成taskRunner，并从线程池中抽取出一个空闲线程运行Task，这样，每个CoarseGrainedExecutorBackend能并行运行Task的数据就取决于分配给它的CPU的个数。（4）Worker：集群中可以运行Application代码的节点。在Standalone模式中指的是通过slave文件配置的worker节点，在Spark on Yarn模式中指的就是NodeManager节点。（5）Task：在Executor进程中执行任务的工作单元，多个Task组成一个Stage （6）Job

Spark学习之路（一）Spark初识 [转]

阅读更多关于 Spark学习之路（一）Spark初识 [转]

官网介绍什么是Spark 官网地址： http://spark.apache.org/ Apache Spark™ 是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能。 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式，包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算，及时依赖磁盘进行复杂的运算，Spark依然比MapReduce更加高效。为什么要学Spark 中间结果输出：基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任务管道承接的，考虑，当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串联的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果。 Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。 Spark的四大特性高效性运行速度提高100倍。 Apache Spark使用最先进的DAG调度程序，查询优化程序和物理执行引擎，实现批量和流式数据的高性能。易用性

linux常用命令总结

阅读更多关于 linux常用命令总结

一：常用sql 1）查看分区 hadoop fs -ls /hive/warehouse/managed/dwd_data.db/dwd_gen_track_oneapp_log_df 2）添加分区 alter table dwd_gen_track_oneapp_log_df add partition ( partition_date = '2019-10-24' ) ; 添加分区 3）删除分区 alter table dwd_gen_track_oneapp_log_df drop partition ( pt = '2019-10-22' ) ; 删除分区 4）杀死yarn进程 yarn application - kill application_1571219160975_3186 杀死yarn进程 5）查看分区 show partitions 表名查看分区 6）删除表数据 truncate table 表名删除表数据 7）外部表转内部表 alter table tableA set TBLPROPERTIES ( 'EXTERNAL' = 'false' ) 外部表转内部表 8）查看表结构的详细信息 desc formatted table ; 9）删除表 DROP TABLE IF EXISTS table ; 删除表 10）本地导入到hive load

Apache Spark

阅读更多关于 Apache Spark

Apache Spark 一、概述官方地址： http://spark.apache.org/ Lightning-fast unified analytics engine : 快如闪电的统一分析引擎快如闪电： Spark基于内存式计算，分布式并行计算框架。不同于MapReduce框架，基于磁盘式计算，将Job粗粒度的分为MapTask、ReduceTask，并且必须通过网络进行数据交互。 Spark任务执行时，实际上会将一个复杂的科学计算划分一个个的Stage（阶段），每一个Stage都支持分布式的并行计算 Spark计算时，每一个Stage计算结果都可以进行缓存，可以非常容易的进行故障恢复和结果重用统一：集结了大数据处理的主流方案批处理（RDD：代替MapReduce）流处理（Streaming：代替Storm、Kafka Streaming）机器学习（Machine Learing: 代替Mahout）交互式查询（SQL：代替Hive）图形计算（GraphX）分析引擎：代替MapReduce 特点速度：相对于MapReduce的计算，效率极高。Spark将复杂的Job分解为若个Stage，每一个Stage都可以进行分布式并行计算，称为DAG（Directed Acyclic Graph）有向无环图，类似于Kafka Streaming

大数据之Hadoop环境搭建

阅读更多关于大数据之Hadoop环境搭建

Hadoop由GNU / Linux平台及其版本支持。因此，我们必须安装一个Linux操作系统来设置Hadoop环境。如果您有除Linux以外的操作系统，您可以在其中安装Virtualbox软件，并在Virtualbox内部安装Linux。安装前设置在将Hadoop安装到Linux环境之前，我们需要使用ssh（Secure Shell）来设置Linux。按照以下步骤设置Linux环境。创建用户在开始时，建议为Hadoop创建一个单独的用户，以便将Hadoop文件系统与Unix文件系统隔离。按照以下步骤创建用户：使用命令“su”打开根。使用命令“useradd username”从root帐户创建用户。现在您可以使用命令“su username”打开现有的用户帐户。打开Linux终端并键入以下命令以创建用户。 $ su password: # useradd hadoop # passwd hadoop New passwd: Retype new passwd SSH设置和密钥生成需要SSH设置在集群上执行不同的操作，如启动，停止，分布式守护程序shell操作。要对Hadoop的不同用户进行身份验证，需要为Hadoop用户提供公钥/私钥对，并与不同的用户共享。以下命令用于使用SSH生成键值对。将公共密钥表单id_rsa.pub复制到authorized_keys

【Spark】（六）Spark 运行流程

阅读更多关于【Spark】（六）Spark 运行流程

文章目录一、Spark中的基本概念二、Spark的运行流程 2.1　Spark的基本运行流程 1、说明 2、图解 3、Spark运行架构特点 4、DAGScheduler 5、TaskScheduler 6、SchedulerBackend 7、Executor 三、Spark在不同集群中的运行架构 3.1　Spark on Standalone运行过程 3.2　Spark on YARN运行过程 3.2.1　YARN框架流程 3.2.2　YARN-Client 3.2.3　YARN-Cluster 3.2.4　YARN-Client 与 YARN-Cluster 区别一、Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContext （3）Executor：某个Application运行在Worker节点上的一个进程，该进程负责运行某些task，并且负责将数据存在内存或者磁盘上。在Spark on Yarn模式下，其进程名称为 CoarseGrainedExecutor Backend，一个CoarseGrainedExecutor

ubuntu安装鲁班H5

阅读更多关于 ubuntu安装鲁班H5

环境需要 node, git,npm,yarn 项目中所需 sudo apt-get install autoconf libpng-dev 1、下载文件 git clone https://github.com/ly525/luban-h5.git 2、启动后台 # 默认当前目录为 luban 项目的根目录 cd back-end/h5-api yarn # 安装依赖 npm run dev 提示： yarn报错error An unexpected error occurred: 则换npm源 npm config set registry https://registry.npm.taobao.org npm config set disturl https://npm.taobao.org/dist 3、前端 cd front-end/h5 yarn install yarn build:engine npm run dev 来源： CSDN 作者：表演系小学渣链接： https://blog.csdn.net/weixin_41996632/article/details/103896378

订阅 yarn