在AKS上大规模运行Ray框架 | 上海软件外包公司-知力科技

微软的Azure Kubernetes Service团队分享了有关如何大规模运行Anyscale提供的开源Ray服务的指导方针。这些指导方针主要关注三个关键问题：GPU容量限制、分散的机器学习存储资源，以及凭证过期所带来的问题。

这篇文章在之前关于AKS上运行的开源KubeRay的介绍基础上进行了进一步拓展，重点介绍了Anyscale开发的改进型运行时环境——该运行时环境此前被称为RayTurbo。这种运行时环境具备智能自动扩展功能、更完善的监控机制，以及容错性更高的训练功能，而这些特性都是建立在开源的Ray框架之上的。

Ray是一个专为Python语言设计的分布式计算框架，它能够将人工智能和机器学习相关工作负载从单台笔记本电脑扩展到由数千个节点组成的集群系统。Anyscale提供的托管平台为Ray增添了诸多适用于生产环境的功能。这份新的指导方针体现了微软与Anyscale在推动Azure平台与Ray框架整合方面所取得的合作成果。

在大规模的机器学习应用中，GPU资源的稀缺性一直是困扰开发人员的重要问题。像NVIDIA GPU这类需求量极大的加速器，在Azure的不同地区往往存在配额限制或可用性不足的问题，这会导致集群搭建和作业调度工作受到延误。

微软提出的解决方案是采用多集群、多区域的部署架构。通过将Ray集群分布在Azure不同地区的多个AKS实例上，开发人员可以做到以下几点：首先，能够合并各个区域的GPU配额资源；其次，在发生故障或容量不足的情况下，系统能够自动重新分配工作负载；最后，还可以利用Azure Arc与AKS的集成功能，将计算资源扩展到本地系统或其他云服务提供商的平台上。

Anyscale的控制台允许用户在一个界面上查看所有已注册的集群。Anyscale Workspaces平台则可以根据可用的计算资源，以手动或自动的方式来管理工作负载的调度任务。用户可以通过创建cloud_resource.yaml配置文件来添加新的区域，然后使用Anyscale CLI工具来应用这些配置。这种以配置为核心的设计方式，使得多区域的扩展变得非常容易管理。

在机器学习项目的运行过程中，经常需要在不同阶段之间传输训练数据、模型检查点以及相关成果文件。例如，这些数据需要在预训练阶段、微调阶段以及推理阶段之间进行传递。微软的指导方针中提到了使用Azure BlobFuse2这一工具来解决这个问题——该工具能够将Azure Blob Storage中的数据以POSIX兼容的方式挂载到Ray工作节点上，从而实现跨节点的数据共享。

从Ray的角度来看，这个挂载点其实就是本地的文件目录。任务进程和各个组件可以通过标准的文件I/O操作来读取数据集或写入检查点文件，而BlobFuse2会负责将数据保存到Azure Blob Storage中。这样的设计使得数据能够在不同的工作节点之间被共享；同时，本地缓存机制还可以有效防止在大规模训练过程中出现GPU资源占用过高的问题。由于数据存储与计算过程是解耦的，因此Ray集群可以在不需要担心数据丢失的情况下轻松地进行扩展或缩减。

要实施这种配置方案，需要在创建集群时启用blob CSI驱动程序，然后定义一个使用工作负载身份进行认证的StorageClass对象，最后创建一个具有ReadWriteMany访问权限的PersistentVolumeClaim对象。这样，不同节点上的多个Ray工作进程就可以同时访问共享的数据了。这种设计方式不仅使得Ray代码具有更好的可移植性，还为基础设施层带来了Azure原生存储所具备的持久性和扩展性。另一个重要的话题是身份验证的可靠性。Anyscale和Azure过去使用的都是每30天就会失效的CLI令牌或API密钥，因此需要手动更换这些凭据，而这会导致服务中断的风险。新的方案采用了Microsoft Entra的服务主体以及AKS的工作负载身份认证机制。该系统能够自动生成有效期较短的令牌。Anyscale的Kubernetes OperatorPod使用的是用户指定的管理身份认证信息，这种身份认证机制会向Entra ID请求用于访问Anyscale服务主体的令牌。Azure会透明地处理令牌的更新工作，因此不会在集群中存储长期有效的凭据，也不需要手动更换这些凭据。作者们指出，在多集群环境中，这一点尤为重要。因为在多个集群中手动管理凭据会增加运营负担，而工作负载身份认证模型可以为Azure资源的访问提供细粒度的权限控制，并且还能通过Azure活动日志生成完整的审计记录。Anyscale与AKS的集成目前仍处于私人预览阶段。有意向使用该功能的团队应联系他们的Microsoft账户团队，或者可以在AKS的GitHub仓库中提交申请，请在申请中详细说明所使用的Ray工作负载以及目标区域信息。你还可以在GitHub上的Azure-Samples/aks-anyscale仓库中查看相关的示例配置及使用DeepSpeed和LLaMA-Factory进行调优的案例，其中也包括了大语言模型推理端点的配置信息。微软并不是唯一一家在这一领域采取行动的公司。AWS也在2024年的Ray峰会上宣布了与Anyscale的合作关系，这种合作将EKS集群与RayTurbo运行时环境连接起来，通过结合NVIDIA GPU与AWS的Trainium和Inferentia加速器，提升了硬件的灵活性。此外，SageMaker HyperPod现在也被用于那些需要具备节点级容错能力的长期训练任务中。在开源贡献方面，Google Cloud也处于领先地位。GKE团队也与Anyscale的工程师们合作，将基于标签的调度机制集成到了Ray v2.49版本中。他们还开发了ray.util.tpu层，以减少多芯片TPU环境中的资源浪费，并为新的GB200支持实例添加了动态资源分配功能。这三家大型云计算公司都选择了相同的Ray运行时管理工具，并且各自根据自己的基础设施进行了相应的优化。这表明，业界更倾向于使用Kubernetes与Ray的组合来处理人工智能相关工作负载。如今，竞争的重点已经不再是运行时环境本身，而是哪家云服务提供商能够更好地优化相关的基础设施。