运输公司Uber在其博客上发布了关于其新的可观测性平台的详细介绍,文中指出对Uber而言,网络可视性如今已是一种战略性的能力,而不再只是一组独立的监控工具。
在这篇文章中,Uber描述了自己是如何用基于开源技术和API构建的模块化、云原生的可观测性平台来取代原有的单体式、本地部署的监控系统的。作者们解释说,旧系统依赖于重量级组件和手动配置,这种架构无法适应办公室、数据中心以及云环境中的快速变化。他们表示,现在自己已经建立了一套灵活的数据采集流程、一个中央警报处理系统以及一个动态配置服务,这些机制共同负责数据传输、警报标准化处理,并确保收集器的配置与实际的网络环境保持一致。

这篇文章还指出,自动化是Uber新可观测性策略的重要组成部分。在博客中,Uber团队解释了他们的动态配置系统是如何自动将监控任务分配到不同地区,并通过API在全球范围内部署配置变更的,而无需工程师进行手动操作。他们将整个监控系统视作一个可编程的平台,工程师可以通过添加元数据和规则来影响其运行方式。这一观点与其他最近关于云基础设施可观测性的研究结果是一致的——那些研究都指出,工程师可以使用这些平台来实时收集并分析各种指标、事件、日志和跟踪数据,并通过中央策略来管理警报处理工作。因此,Uber的文章将自动化视为在企业规模上实现有效可观测性管理的唯一可行方式,而不仅仅是一种附加功能。作者们还详细介绍了CorpNet可观测性平台是如何监控路由器、交换机、电源分配单元等各种支持企业协作与应用的基础设施设备的。
Uber在保持供应商中立性和控制成本方面也做出了显著努力。文章中,工程师们表示,转向基于开源技术的云原生架构使他们在许可证费用上节省了“数十万美元”,同时也减少了对商业软件的依赖。该公司将开源组件与自己开发的警报处理和配置系统结合起来,构建出了一个完整的可观测性平台。这种做法与最近的一些可观测性调查结果相符——例如Logz.io的一项调查就指出,许多组织都在积极使用Prometheus和Grafana等开源工具,以降低使用商业平台的成本。这与那些推崇集成型、即买即用的可观测性平台的说法形成了对比,因为后者往往会隐藏实现细节。文章还明确表示,Uber愿意投入额外的工程资源,只为获得更低的长期运营成本和更高的灵活性。
Uber的工程师们也通过这篇博客来明确人们对人工智能作用的预期,他们目前所开展的工作为未来基于人工智能的自动化技术发展奠定了基础。他们认为,通过现在对各类监测数据进行整理和标准化处理,可以为将来“更加智能、由人工智能驱动的网络运营”创造条件。其他行业报告也表达了类似的观点。例如,网络服务提供商Equinix在文章中指出,生成式人工智能可以通过改善警报处理机制并加快根本原因分析的速度,为“网络可观测性”增添新的维度。关于人工智能在数据中心网络中的应用的相关文章也提出了类似的观点,认为可观测性数据是实现异常检测和预测性维护的重要工具。
在所有这些讨论中,这篇博客都将“可观测性”视为一项需要持续投入的努力,而不仅仅是一次性的项目。Uber用“长跑”这一比喻来形容这一过程,指出在跑步过程中需要不断更换鞋子、调整节奏策略。其他一些最新的报告和指南,比如Splunk发布的这份文档,也采用了类似的表达方式,将可观测性描述为一种“需要持续投入工具、技能和流程建设的领域”。
Equinix的网络可观测性团队在2025年发布的关于人工智能与网络运营的分析报告中指出:“生成式人工智能为网络可观测性带来了新的智能层次,使用户能够更有效地监控网络运行状况、管理警报信息、主动发现潜在问题,并全面评估系统性能。”Uber的这篇博客文章则展示了这样一家大型科技公司是如何通过首先完善自身的内部可观测性体系,然后再引入人工智能技术来为未来的发展做好准备。
Uber的博客文章最后指出,他们新开发的可观测性平台已经能够同时支持当前的运营需求以及未来由人工智能驱动的各项功能。