Moonshot AI发布了他们的最新开源多模态大语言模型Kimi K2.5。K2.5在编程任务中表现优异,其基准测试成绩可与GPT-5、Gemini等前沿模型相媲美。该模型还具备“智能代理群组”模式,能够同时指挥多达100个子代理来并行处理问题。

Kimi K2.5是在之前的Kimi K2 MoE LLM基础上开发的。新模型在原有仅支持文本处理的版本中加入了视觉功能,这种结合使其特别适合前端开发任务。该模型支持四种运行模式:即时模式、思考模式、智能代理模式以及智能代理群组模式。其中智能代理群组模式目前还处于研究阶段,它能将任务分解为多个子任务,并由一组子代理并行执行这些子任务。智能代理模式专为处理需要生成文档或电子表格的办公任务而设计。据Moonshot AI表示:

凭借在编程技术、智能代理群组以及办公效率方面的创新,Kimi K2.5为开源社区迈向通用人工智能迈进了一大步,它在现实世界的各种限制条件下依然能够出色地完成实际任务。展望未来,我们将继续深入探索智能代理技术的边界,重新定义人工智能在知识工作领域的应用潜力。

Kimi K2.5在Kimi K2的架构基础上加入了Moonshot团队开发的MoonViT-3D视觉编码器。开发团队从Kimi K2的训练检查点开始,又使用了15T的数据进行了预训练,随后进行了有监督的微调和强化学习训练。

为了实现智能代理群组功能,Moonshot团队开发了一种新的强化学习技术——并行智能代理强化学习(PARL),以此帮助Kimi K2.5有效地分解并并行处理复杂任务。PARL的设计旨在解决训练过程中的稳定性问题、责任分配不明确的问题,以及“串行执行导致效率低下”的现象。在PARL中,各个子代理会被冻结,只有负责协调的智能代理会接受训练;奖励机制则能够激励子代理的创建及子任务的顺利完成。

Moonshot团队对Kimi K2.5进行了多种基准测试。特别是在评估智能代理群组功能时,他们使用了BrowseCompWideSearch这两个评测工具,这些工具用于衡量模型的研究和信息检索能力。在BrowseComp测试中,Kimi K2.5的表现优于GPT-5.2 Pro;而在WideSearch测试中,它的成绩超过了Claude Opus 4.5。由于采用了并行执行机制,Kimi K2.5在处理任务时所需的时间也大幅减少。Moonshot团队还指出,智能代理群组模式具备“主动控制上下文信息”的能力,这不仅能有效避免上下文信息溢出,还能在不需要进行上下文摘要的情况下显著延长整体处理效率。

吴恩达的The Batch新闻通讯讨论了Kimi K2.5,其中提到:

构建具有自主能力的 workflow可以提高模型在特定任务上的表现。与预先定义好的Workflow不同,Kimi K2.5能够自行判断何时需要创建新的子代理、这些子代理应该执行什么任务,以及何时将工作分配给它们。这种自动化的协同工作机制尤其适用于那些可以并行处理的任务……Kimi K2.5将任务执行方式从顺序推理模式转变为自主协作模式:它不会依次响应各种指令,而是像一个管理者一样,协调多个并行运行的Workflow或模型来共同完成任务。

用户可以通过聊天界面Moonshot的API在网络上使用Kimi K2.5。该模型的权重数据也可以在Huggingface平台上找到。

Comments are closed.