Datadog最近宣布,其LLM可观测性平台现在为使用Google的Agent Development Kit(ADK)构建的应用程序提供了自动监控功能,这使得人们能够更深入地了解由AI驱动的智能系统的行为、性能、成本及安全性。这一整合措施在Google Cloud博客中有所介绍,其目的在于帮助开发人员和运维团队更轻松地监控和排查那些复杂的多步骤AI智能系统工作流程中的问题,而无需进行繁琐的手动配置或定制监控方案。
随着越来越多的企业开始采用基于ADK等框架构建的自主AI智能系统,这些系统的非确定性特性使得预测输出结果、诊断错误或控制成本变得十分困难。Datadog的新整合功能能够将ADK应用程序产生的数据纳入其可观测性系统中,使团队能够可视化智能系统的决策路径、追踪工具调用情况、测量令牌使用量及延迟时间,并识别那些可能降低性能或增加API使用成本的异常环节。通过将这些遥测数据与其他系统指标进行关联分析,Datadog帮助团队提升了智能系统的可靠性及运维效率。
这一整合还弥补了智能系统部署过程中存在的一个常见缺陷:虽然ADK为构建各种场景下的AI智能系统提供了灵活的开发框架,但它本身并不包含专为生产环境设计的监控和管理工具。Datadog的自动监控功能能够自动追踪每个智能系统的运行情况,并将这些数据以统一的时间线形式呈现出来,从而帮助团队及时发现诸如工具选择不当或重试机制效率低下等问题,这些问题都可能显著增加延迟时间或令牌使用成本。
Datadog的LLM可观测性平台现在允许用户查看每种工具及不同工作流程分支下的令牌使用量与延迟情况,从而帮助识别那些表现异常或成本超标的智能系统。在企业环境中,当复杂的智能系统调度涉及到多个模型、工作流程以及外部集成时,这一功能尤为重要,因为传统的应用程序性能监控手段往往无法有效应对以AI为核心的系统逻辑。
其他可观测性工具也在开展类似的整合工作,因为整个行业都在努力帮助各类组织更好地理解大型语言模型的应用效果。
New Relic提供了全面的全栈观测功能及应用性能管理工具,具备强大的分布式追踪能力与性能分析功能,并且正在通过扩展遥测数据关联分析及人工智能驱动的监控功能,朝着基于人工智能的观测解决方案方向发展。虽然New Relic在专为大型语言模型设计的工具方面尚未达到Datadog的ADK集成方案所达到的水平,但它能够为团队提供端到端的应用与基础设施监控能力,帮助大家了解人工智能系统及相关代理进程是如何与其他技术组件相互协作的。New Relic的定价模式是根据摄入的数据量而非主机数量来收费的,因此对于那些关注成本问题的团队来说,这种定价方式更加透明、更易于预测。
Splunk提供的观测工具(包括Splunk Observability Cloud)在处理大量日志数据及进行查询分析方面表现出色,这使得它们非常适合用于对各种类型的数据集进行详细的分析。然而,与Datadog那些集成度更高的代理监控功能相比,Splunk可能需要用户花费更多精力才能将那些与人工智能相关的指标(例如令牌使用情况或模型决策路径等)有效地提取出来并进行分析。在处理大规模的非结构化遥测数据以及安全相关监控任务时,Splunk依然具有很强的优势;但如果没有定制的开发工具或插件,其在内置的人工智能/代理工作流程支持方面可能会相对薄弱一些。
随着人们对人工智能系统及相关代理进程的观测需求不断增长,所有相关供应商都在努力改进自己的产品。这些厂商普遍将研发重点放在运行时跟踪功能、序列与路径可视化工具,以及针对人工智能工作负载的成本与延迟分析机制上,不过由于各自的核心优势不同,他们在实现这些目标时采取了略有不同的方法。