Cupid

MaxCompute Spark开发指南

人盡茶涼 提交于 2020-11-24 10:29:24
0. 概述 本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务,它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作业,以满足更丰富的数据处理分析场景。 本文将重点介绍MaxCompute Spark能够支撑的应用场景,同时说明开发的依赖条件和环境准备,重点对Spark作业开发、提交到MaxCompute集群执行、诊断进行介绍。 1. 前提条件 MaxCompute Spark是阿里云提供的Spark on MaxCompute的解决方案,能够让Spark应用运行在托管的MaxCompute计算环境中。为了能够在MaxCompute环境中安全地运行Spark作业,MaxCompute提供了以下SDK和MaxCompute Spark定制发布包。 SDK定位于开源应用接入MaxCompute SDK: 提供了集成所需的API说明以及相关功能Demo,用户可以基于项目提供的Spark-1.x以及Spark-2.x的example项目构建自己的应用,并且提交到MaxCompute集群上。 MaxCompute Spark客户端发布包:

Maxcompute Spark作业管控利器—Cupid Console

北城余情 提交于 2020-03-03 15:43:01
一、背景 Maxcompute平台目前可以支持运行Spark作业,Spark作业依托于Maxcompute的Cupid平台可以按照社区兼容的方式提交到Maxcompute上运行,支持读写Maxcompute表,和Maxcompute上原有的SQL/MR等作业共用Project的资源。相关产品的详细介绍可以参考官方文档: https://help.aliyun.com/document_detail/102357.html Maxcompute Spark作业也是Maxcompute平台上的一种作业类型,和其他作业一样,每一个Spark作业都具有一个唯一的InstanceId,可以通过InstanceId来管理相应的Spark作业,比如通过InstanceId我们可以获取到作业的Logview和停止作业。但是目前通过InstanceId能够获取到的信息对于Spark作业来说还是太有限,一些Spark作业特有的信息无法看到,这也是目前Spark用户运维管理过程中的一个痛点。本文接下来会介绍一款Maxcompute Spark作业管控利器—Cupid Console。 二、Cupid Console介绍 Cupid Console是MaxCompute客户端 0.33.1 及更新版本新增的一个插件,下载MaxCompute客户端最新版本: https://github.com

Docker中上传镜像到docker hub中

血红的双手。 提交于 2020-02-25 18:30:14
申请Docker hub账号 首先在https://hub.docker.com/官网申请一个docker hub 帐号,该账号是免费申请的。 但是在中国大陆访问dockerhub官方网站的时候,sign up注册按钮是灰色的,不能点击进行注册。以下提供一种解决方案: 在以下链接下载 链接:https://pan.baidu.com/s/1qG0fZTZ2-ntoC1HRhQHpuQ 密码:rzyn 下载谷歌访问助手之后,解压之后使用浏览器打开,根据提示添加即可。 再次访问docker hub网站申请账号,输入用户名,密码,邮箱地址,验证成功后进入邮箱激活即可。 2.创建个人仓库 创建账号成功之后登录docker hub,点击create按钮:create ->create repository ,起一个名字,这里我们最终创建的仓库名称:hello-docker,其中cupidkai是帐号名称,hello-docker是其中一个仓库名,如下图所示: 3、创建镜像 在这里使用Dockerfile的方式建立一个image。它可以在一个镜像的基础上,去构建另一个镜像。首先我们拉取一个centos的镜像。在这里创建一个简单的打印hello world的镜像。 docker pull centos 然后,在本地创建一个Dockerfile文件