排行榜的幻象:对 Leaderboard 的误解
arXiv:2504.20879 (cs) [2025年4月29日提交]
标题: The Leaderboard Illusion
作者: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
查看由 Shivalika Singh 和其他 12 位作者撰写的题为 The Leaderboard Illusion 的论文的 PDF 版本 查看 PDF HTML (实验性)
摘要:衡量进展是任何科学领域进步的基础。随着基准测试发挥越来越核心的作用,它们也更容易受到扭曲。 Chatbot Arena 已经成为排名最有能力的 AI 系统的首选排行榜。然而,在这项工作中,我们发现了一些系统性问题,这些问题导致了扭曲的竞争环境。 我们发现,未公开的私有测试实践使少数提供商受益,他们能够在公开发布之前测试多个变体,并在需要时撤回分数。我们确定,这些提供商选择最佳分数的能力导致 Arena 分数因有选择地披露性能结果而产生偏差。 在一个极端情况下,我们确定了 Meta 在发布 Llama-4 之前测试的 27 个私有 LLM 变体。 我们还确定,专有的封闭模型以更高的速率(战斗次数)进行采样,并且从 arena 中移除的模型比开放权重和开源替代方案更少。 这两项策略都会随着时间的推移导致大量的数据访问不对称。 像 Google 和 OpenAI 这样的提供商分别获得了 arena 上所有数据的约 19.2% 和 20.4%。 相比之下,总共 83 个开放权重模型仅获得了估计总数据的 29.7%。 我们表明,访问 Chatbot Arena 数据会产生巨大的好处; 基于我们保守的估计,即使是有限的额外数据也可以在 arena 分布上产生高达 112% 的相对性能提升。 总之,这些动态导致过度拟合到 Arena 特定的动态,而不是一般的模型质量。 Arena 建立在组织者和一个维护这个有价值的评估平台的开放社区的巨大努力之上。 我们提供可行的建议来改革 Chatbot Arena 的评估框架,并为该领域推广更公平、更透明的基准测试。 注释: | 68 页,18 个图,9 个表格 ---|--- 主题: | 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG); 方法论 (stat.ME) 引用方式: | arXiv:2504.20879 [cs.AI] (或 arXiv:2504.20879v1 [cs.AI] 对于此版本) https://doi.org/10.48550/arXiv.2504.20879 通过 DataCite 了解更多关于 arXiv 发布的 DOI 的信息 (注册中)
提交历史
来自: Marzieh Fadaee [查看电子邮件] [v1] 2025年4月29日 15:48:49 UTC (854 KB) 全文链接:
访问论文:
查看由 Shivalika Singh 和其他 12 位作者撰写的题为 The Leaderboard Illusion 的论文的 PDF 版本