连载:阿里巴巴大数据实践—数据开发平台
数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。面对海量的数据和复杂的计算,阿里巴巴的数据计算层包括两大体系: 数据存储及计算平台(离线计算平台MaxCompute和实时计算平台StreamCompute)、数据整合及管理体系(OneData) 。 阿里数据研发岗位的工作大致可以概括为: 了解需求→模型设计→ETL开发→测试→发布上线→日常运维→任务下线 。与传统的数据仓库开发(ETL)相比,阿里数据研发有如下几个特点: 业务变更频繁——业务发展非常快,业务需求多且变更频繁; 需要快速交付——业务驱动,需要快速给出结果; 频繁发布上线——迭代周期以天为单位,每天需要发布数次; 运维任务多——在集团公共层平均每个开发人员负责上百多个任务; 系统环境复杂——阿里平台系统多为自研,且为了保证业务的发展,平台系统的迭代速度较快,平台的稳定性压力较大。 通过统一的计算平台(MaxCompute)、统一的开发平台、统一的数据模型规范和统一的数据研发规范,可以在一定程度上解决数据研发的痛点。 本文主要介绍MaxCompute和阿里巴巴内部基于MaxCompute的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍。 1、统一计算平台