Hugging Face推出了社区评估功能,这一功能使得托管在Hub上的基准数据集能够自行建立排行榜,并自动从模型仓库中收集评估结果。该系统依托Hub基于Git的基础设施,实现了对基准测试分数的报告与追踪过程的去中心化处理,从而使提交的数据具有透明性、可版本控制以及可复现性。

在新系统中,数据集仓库可以注册为基准测试项目。一旦完成注册,这些数据集就会自动收集并显示通过Hub提交的各项评估结果。各基准测试项目会使用Inspect AI格式,在eval.yaml文件中明确指定自己的评估规范,从而确保评估过程的可复现性。目前通过这一系统可使用的基准测试项目包括MMLU-ProGPQA以及HLE,未来还计划逐步增加其他测试项目。

模型仓库现在可以将评估结果存储在位于.eval_results/目录中的结构化YAML文件中。这些评估结果会显示在模型卡片上,并会自动与相应的基准数据集建立关联。无论是模型作者自行提交的结果,还是通过公开拉取请求提交的结果,都会被系统汇总起来。模型作者仍然可以关闭相关的拉取请求,或者隐藏与自己模型相关联的评估结果。

该系统还允许任何Hub用户通过拉取请求为某个模型提交评估结果。由社区成员提交的评估结果会相应地被标记出来,并且可能会引用外部资源,如研究论文、模型卡片、第三方评估平台或评估日志等。由于Hub是基于Git运行的,因此对评估文件所做的所有修改都会被记录下来,包括修改的时间以及修改者是谁。关于这些评估结果的讨论也可以直接在拉取请求的讨论区中进行。

Hugging Face表示,推出这一功能的目的是为了解决各类文献、模型卡片以及不同评估平台之间报告的基准测试结果存在不一致性问题。虽然传统的基准测试方法仍然被广泛使用,但许多这类测试项目的饱和度已经很高了,而且不同的评估设置也会导致测试结果的差异。通过利用可复现的评估规范以及透明的提交记录机制,将模型仓库与基准数据集联系起来,新系统旨在使评估报告的过程更加一致且便于追踪。

XReddit上,用户们对这一新功能的反应虽然不多,但总体上是积极的。用户们普遍欢迎这种去中心化、透明的评估报告机制,其中一些人还特别强调了社区成员提交的评估结果相比单一的基准测试指标具有更大的参考价值。

AI与技术教育专家Himanshu Kumar评论道:

模型评估需要更好的标准化机制,而Hugging Face的“社区评估”功能在这方面可以提供帮助。

与此同时,用户@rm-rf-rm也分享了观点:

像LMArena这样的工具破坏了模型开发的正常流程,还引发了错误的激励机制。我认为,“社区评估”功能能在很大程度上改善这种不良现状。

Hugging Face强调,“社区评估”并不会取代现有的基准测试或封闭式的评估流程。它的作用在于让社区已经产生的评估结果能够被公开,并通过Hub API供外部工具使用。这样,外部工具就可以利用标准化的数据来构建数据面板、生成排行榜或进行对比分析。

目前这一功能仍处于测试阶段。开发者可以通过在模型仓库中添加YAML格式的评估文件,或者将符合特定评估标准的数据集注册为基准测试对象来参与测试。Hugging Face表示,他们计划逐步增加支持的基准测试数量,并根据社区用户的反馈持续改进该系统。

Comments are closed.