Cupid | 易学教程

MaxCompute Spark开发指南

阅读更多关于 MaxCompute Spark开发指南

0. 概述本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务，它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持用户以熟悉的开发使用方式提交运行Spark作业，以满足更丰富的数据处理分析场景。本文将重点介绍MaxCompute Spark能够支撑的应用场景，同时说明开发的依赖条件和环境准备，重点对Spark作业开发、提交到MaxCompute集群执行、诊断进行介绍。 1. 前提条件 MaxCompute Spark是阿里云提供的Spark on MaxCompute的解决方案，能够让Spark应用运行在托管的MaxCompute计算环境中。为了能够在MaxCompute环境中安全地运行Spark作业，MaxCompute提供了以下SDK和MaxCompute Spark定制发布包。 SDK定位于开源应用接入MaxCompute SDK：提供了集成所需的API说明以及相关功能Demo，用户可以基于项目提供的Spark-1.x以及Spark-2.x的example项目构建自己的应用，并且提交到MaxCompute集群上。 MaxCompute Spark客户端发布包：

Maxcompute Spark作业管控利器—Cupid Console

阅读更多关于 Maxcompute Spark作业管控利器—Cupid Console

一、背景 Maxcompute平台目前可以支持运行Spark作业，Spark作业依托于Maxcompute的Cupid平台可以按照社区兼容的方式提交到Maxcompute上运行，支持读写Maxcompute表，和Maxcompute上原有的SQL/MR等作业共用Project的资源。相关产品的详细介绍可以参考官方文档： https://help.aliyun.com/document_detail/102357.html Maxcompute Spark作业也是Maxcompute平台上的一种作业类型，和其他作业一样，每一个Spark作业都具有一个唯一的InstanceId，可以通过InstanceId来管理相应的Spark作业，比如通过InstanceId我们可以获取到作业的Logview和停止作业。但是目前通过InstanceId能够获取到的信息对于Spark作业来说还是太有限，一些Spark作业特有的信息无法看到，这也是目前Spark用户运维管理过程中的一个痛点。本文接下来会介绍一款Maxcompute Spark作业管控利器—Cupid Console。二、Cupid Console介绍 Cupid Console是MaxCompute客户端 0.33.1 及更新版本新增的一个插件，下载MaxCompute客户端最新版本： https://github.com

Docker中上传镜像到docker hub中

阅读更多关于 Docker中上传镜像到docker hub中

申请Docker hub账号首先在https://hub.docker.com/官网申请一个docker hub 帐号，该账号是免费申请的。但是在中国大陆访问dockerhub官方网站的时候，sign up注册按钮是灰色的，不能点击进行注册。以下提供一种解决方案：在以下链接下载链接：https://pan.baidu.com/s/1qG0fZTZ2-ntoC1HRhQHpuQ 密码：rzyn 下载谷歌访问助手之后，解压之后使用浏览器打开，根据提示添加即可。再次访问docker hub网站申请账号，输入用户名，密码，邮箱地址，验证成功后进入邮箱激活即可。 2.创建个人仓库创建账号成功之后登录docker hub,点击create按钮：create ->create repository ,起一个名字，这里我们最终创建的仓库名称：hello-docker，其中cupidkai是帐号名称，hello-docker是其中一个仓库名，如下图所示： 3、创建镜像在这里使用Dockerfile的方式建立一个image。它可以在一个镜像的基础上，去构建另一个镜像。首先我们拉取一个centos的镜像。在这里创建一个简单的打印hello world的镜像。 docker pull centos 然后，在本地创建一个Dockerfile文件