DoorDash开发了一套模拟与评估系统,旨在加速基于大型语言模型开发的客户支持 … Read More
微软推出了“Evals for Agent Interop”这一开源工具包,旨在 … Read More
Hugging Face推出了社区评估功能,这一功能使得托管在Hub上的基准数据 … Read More