Kubeflow 入门——为 Kubernetes 打造的组件化、可移植、可扩展的机器学习堆栈
【编者的话】本文来自 Kubeflow 项目的产品经理 David Aronchick 和首席工程师 Jeremy Lewi,主要讲了他们新的开源项目——Kubeflow 的一些入门知识,Kubeflow 致力于使 Kubernetes 上的机器学习堆栈变得简单,快速及可扩展。 Kubernetes 已经迅速成长为部署复杂工作负载的混合解决方案。 虽然提供的只是无状态服务,但客户已经开始将复杂的工作负载转移到Kubernetes 平台上,并充分利用了 Kubernetes 提供的丰富API、可靠性以及良好的性能。其中增长最快的用途之一是使用 Kubernetes 作为机器学习的部署平台。 构建一套生产环境下的机器学习系统需要涉及各种组件,通常需要使用混合供应商并结合自研的解决方案。使用相对复杂的配置来连接和管理这些服务,给学习机器学习带来了巨大障碍。基础设施工程师通常会花费大量时间手动部署,然后才能测试一个模型。 更糟糕的是,上述部署与他们部署的集群紧密相关,这些堆栈是不可移植的,这意味着在没有进行重大重新架构的情况下,将模型从笔记本电脑迁移到高度可扩展的云端集群实际上是不可能的。所有这些差异都会浪费极大的精力,并且每次转换都可能会引入 bug。 Kubeflow 入门 为了解决这些问题,我们决定创建 Kubeflow 项目,一个新的开源 Github repo,致力于在