评估

DoorDash开发了大规模使用的对话模拟器,用于测试客户支持聊天机器人系统的性能。

DoorDash开发了一套模拟与评估系统,旨在加速基于大型语言模型开发的客户支持 … Read More

微软提供的开源工具包,用于测试企业级人工智能代理之间的交互能力,可作为评估这些代理性能的基准测试平台。

微软推出了“Evals for Agent Interop”这一开源工具包,旨在 … Read More

“拥抱脸”项目推出了社区评估机制,旨在促进模型评估过程的透明度。

Hugging Face推出了社区评估功能,这一功能使得托管在Hub上的基准数据 … Read More