使用KubeFATE在Kubernetes上部署联邦学习集群
*本文作者系VMware CTO办公室资深研究员彭麟 背景及KubeFATE架构 之前我们在文章《使用KubeFATE快速部署联邦学习实验开发环境(一)》、《使用KubeFATE快速部署联邦学习实验开发环境(二)》和《使用FATE进行图片识别的深度神经网络联邦学习》中介绍过如何使用KubeFATE部署一个基于Docker Compose的FATE联邦学习集群,以便于快速尝试体验联邦学习。但随着联邦学习的正式投入使用,训练集、模型都会逐渐变大。在生产环境里,我们会遇到以下问题: FATE集群如何适应企业组织内部各种安全、合规要求,以及网络、安全域等IT环境; 一台服务器已经无法支撑联邦学习的算力需求,如何部署多计算节点,并易于管理; 某些节点出现问题,是否有自愈能力,保证服务的可靠性; 能否实现横向扩展,适应业务的成长; FATE版本能否很好的升级管理; 一个组织内是否可以有不同的联邦集群,对应不同的业务、合作伙伴、应用场景需要,如何管理多个集群。 Kubernetes是目前最流行的基础设施平台,大量的实践证明,Kubernetes很适合作为企业内部运维大规模分布式系统的平台。根据Ovum的统计,截至2019年底,一半的大数据负载都运行在Kubrenetes之上。我们团队也推荐Kubernetes作为运行FATE联邦学习集群生产环境的平台