Windsurf在其集成开发环境中推出了Arena Mode功能,使开发者能够在实际编码过程中同时对比不同的大型语言模型。这一设计的目的是让用户能够直接在现有的开发环境中评估这些模型,而无需依赖公共的基准测试或外部评估网站。
Arena Mode会在同一输入提示下并行运行两个Cascade代理,在测试过程中会隐藏底层模型的具体信息。开发者可以按照常规的工作流程与这两个代理进行交互,包括使用自己的代码库、工具以及相关开发环境。在查看所有输出结果后,用户可以选择其中表现更好的答案,这些投票数据将被用来计算模型的排名。最终,这些排名结果既会生成基于个人投票的个性化排行榜,也会形成覆盖整个Windsurf用户群体的全球性排行榜。
X平台上,许多用户认可这种基于实际开发环境的评估方式,但也对代币的使用机制及实用性提出了质疑。
DevRel团队的负责人@nnennahacks这样表示:
你的代码本身就是最好的评估标准。太棒了!
而用户@BigWum则评论道:
这简直是一种消耗更多代币的绝佳方式啊……
在开发者人工智能领域,还有其他一些工具也在探索相关的理念,不过它们的集成程度和关注点各不相同。诸如Dpaia Arena这样的公开评估平台允许用户将不同模型的输出结果进行对比,但这些平台通常是在脱离实际开发环境的、简短的、缺乏上下文信息的提示基础上进行操作的。一些集成在集成开发环境中的辅助工具,比如GitHub Copilot和Cursor,虽然支持在不同模型之间切换或运行后台评估任务,但它们目前并没有将明确的、由用户主导的对比功能作为工作流程的一部分来设计。其他一些新兴的编程辅助工具则更侧重于根据任务类型来选择合适的模型,或者实现多模型的自动切换,而不是直接向开发者提供直接的可比结果。
除了“Arena模式”之外,Windsurf也在其最新版本中推出了新的“Plan模式”。这种模式侧重于在代码生成之前进行任务规划,它会向用户提出一些有助于明确思路的问题,并生成结构化的计划方案,这些方案随后可以由Cascade辅助工具来执行。这一功能的目的是帮助开发者在开始执行与代码相关的任务之前,先明确具体的上下文环境和约束条件。