谷歌研究院试图通过对比分析180种不同的智能体配置,来回答“如何设计智能体系统才能获得最佳性能”这一问题。通过这项研究,该团队提出了他们所称的“人工智能智能体系统的量化扩展原则”,这些原则表明:多智能体协作并不总能提升系统性能,在某些情况下甚至会降低性能。

根据这项发表在《arxiv.org》上的研究,它挑战了几种被广泛接受的观念:

实践者们通常依赖一些经验法则,比如认为“增加智能体的数量就能提高性能”;他们相信添加专门的智能体肯定能够改善系统效果。但研究者们指出,这种观点只适用于某些类型的任务。事实上,在很多情况下,增加智能体数量反而会导致性能达到上限,甚至在某些情况下还会降低性能。

这项研究评估了五种不同的智能体系统架构,包括单智能体系统、独立的多智能体系统、协同工作的多智能体系统、点对点的多智能体系统以及混合架构的系统。研究发现:对于那些可以分解成独立任务块的并行化任务来说,多智能体协作确实能够显著提升性能。例如,在金融推理这类任务中,集中式协调方式使性能提升了80.9%;而像在《PlanCraft》游戏中进行规划这样的顺序处理任务,引入多个智能体反而会降低性能,我们测试的所有多智能体方案都会使性能下降39%到70%——因为在这些场景下,通信开销会干扰推理过程,导致用于实际任务的计算资源不足。

研究还指出了一个关键问题:当任务需要使用更多的外部工具(如API、网络接口等)时,协调成本会增加。这些额外的成本可能会超过多智能体系统带来的好处,从而成为决定是否采用这种架构的重要因素。

另一个值得注意的发现是:如果错误没有得到及时纠正,独立运行的智能体反而会放大错误的影响,其错误传播幅度最高可达17倍;而集中式协调机制则能将错误传播幅度控制在4.4倍左右,因为协调者会在所有智能体输出结果之前对这些结果进行验证和处理。

最后,研究者们还开发了一个预测模型,可以帮助开发者选择最适合他们任务的智能体系统架构。通过分析任务的顺序依赖关系以及所需使用的工具资源,开发者可以根据这个模型做出合理的决策。这个模型的准确率高达87%,其决定系数(R²)为0.513。

针对谷歌在Hacker News上发布的这项研究,zkmon指出,这项研究缺乏充分的理论依据,也没有清楚地解释为什么某些架构会产生观察到的那些差异。同样,gopalv也认为,虽然单智能体系统可能不具备容错能力,但引入协调器并不一定是解决问题的办法

我们发现,协调器并非系统的核心组件,而只是用于确保每个操作的执行结果能够与预定的目标和方法相匹配的专用工具,它最终会将执行情况反馈给协调器。

kioku指出,通过使用协调器所获得的8%的性能提升可能并不足以证明引入协调层这一机制所带来的额外复杂性和成本是合理的。

Comments are closed.