谷歌提升了GKE集群中节点池的自动创建速度 | 上海软件外包公司-知力科技

Google Cloud大幅缩短了为Kubernetes集群配置新节点池所需的时间。

官方公告详细说明了这一更新是如何解决在扩展大规模计算资源时经常出现的延迟问题的。对于那些需要运行分布式工作负载的企业来说，这种延迟往往是他们面临的主要瓶颈之一。

这些改进主要针对Google Kubernetes Engine（GKE）及其节点自动配置功能。该功能能够根据待创建的Pod的具体需求自动生成节点池，这对于在动态环境中保持系统的高可用性至关重要。

在高速度扩展过程中，往往会出现由于在云环境中创建新的基础设施组件而带来的性能开销。当集群需要某种目前还不存在于现有节点池中的新类型节点时，系统必须向底层的Compute Engine API发送一系列请求，以分配资源、配置网络连接，并将这些新节点加入集群。这个过程可能会引入延迟，从而影响应用程序的响应速度，尤其是在需求突然增加或需要执行大规模批处理作业时。

为了解决这些瓶颈问题，Google优化了GKE控制平面与计算基础设施之间的通信机制。新的改进措施使得请求的处理更加高效，同时减少了各种云服务之间进行交互时的开销。通过优化控制平面的操作流程，该平台现在能够比以往更快地将新节点配置为可用状态。这对于那些需要使用异构集群、并且需要为不同任务配备不同类型机器的用户来说，无疑具有极大的帮助。

虽然GKE早就提供了自动扩展功能，但这次的性能提升使其在功能上已经接近于其他生态系统工具，比如Karpenter。这款最初由AWS开发、如今已成为开源项目的工具，因其能够绕过标准Kubernetes Cluster Autoscaler使用的一些传统抽象层机制，从而快速配置节点而备受推崇。通过提高节点池的自动创建速度，Google旨在为用户提供一种与第三方工具相当甚至更优秀的体验，而用户无需再管理额外的控制组件。

这次更新也是Google为改善“准备就绪时间”这一指标而采取的一系列措施的一部分。该指标用于衡量从Pod被调度到实际在节点上运行的整个过程所花费的时间。对于那些使用无服务器架构或大规模AI训练模型的开发者来说，优化这一指标至关重要，因为在这些场景中，计算资源往往需要立即被分配和使用。Kaslin Fields和Yury Gofman在他们对这次更新的技术评估中指出：“GKE的节点池自动创建功能现在比以往任何时候都要快，新节点投入运行所需的时间因此大幅缩短了。”

除了提升处理速度外，此次更新还增强了集群扩展过程的可靠性。当数百个节点同时尝试加入高容量集群时，系统往往会面临压力，这种压力可能会影响控制平面的正常运行。最新的优化措施包括改进了速率限制机制及优先级分配逻辑，这样一来，在进行大规模扩展操作时，集群依然能够保持稳定，各个节点也能以可预测的方式被集成到系统中。这种稳定性对于在生产环境中维持服务水平至关重要。

软件工程师和DevOps团队可以预期，这些改进将会自动应用到所有受支持的GKE版本中。随着云服务提供商在Kubernetes管理服务的效率方面展开竞争，人们关注的重点正在逐渐从简单的功能对比转向深入的性能优化。对于那些采用多云战略的组织来说，这些改进使得GKE相比Azure Kubernetes Service或其他可能仍沿用传统扩展机制的管理平台而言，成为了更适合用于高性能计算以及对延迟要求严格的应用的解决方案。