Meta 因操纵 AI 基准测试(Benchmark)数据而受到指责

Meta 在使用 Llama 4 时,通过操纵基准测试数据,使其新的 AI 模型看起来比竞争对手的更好。

Meta 在使用 Llama 4 时,通过操纵基准测试数据,使其新的 AI 模型看起来比竞争对手的更好。

作者:Kylie Robison

发布时间:2025年4月8日 凌晨1:32 UTC

26 条评论 / 26 条新评论

STK043_VRG_Illo_N_Barclay_2_Meta

插图作者:Nick Barclay / The Verge

Kylie Robison

Kylie Robison 是 The Verge 政策和技术团队的高级 AI 记者。她曾在《财富》杂志和《商业内幕》工作。

上周末,Meta 发布了两个新的 Llama 4 models:一个名为 Scout 的较小模型,以及 Maverick,一个中型模型,该公司声称该模型可以在“广泛报告的基准测试(Benchmark)中”击败 GPT-4o 和 Gemini 2.0 Flash。

Maverick 迅速在 LMArena(一个 AI 基准测试(Benchmark)网站,人们可以在该网站上比较来自不同系统的输出并投票选出最佳输出)上获得了第二名。在 Meta 的 新闻稿中,该公司强调了 Maverick 的 ELO 评分 1417,这使其高于 OpenAI 的 4o,略低于 Gemini 2.5 Pro。(更高的 ELO 评分意味着该模型在竞技场中与竞争对手正面交锋时获胜的频率更高。)

这一成就似乎将 Meta 的开源 Llama 4 定位为 OpenAI、Anthropic 和 Google 等公司的最先进、闭源模型的有力挑战者。然后,AI 研究人员在研究 Meta 的文档时发现了一些不寻常的事情。

在细则中,Meta 承认在 LMArena 上测试的 Maverick 版本与向公众提供的版本不同。根据 Meta 自己的材料,它向 LMArena 部署了一个 Maverick 的“实验性聊天版本”,该版本专门针对“会话性”进行了优化,《TechCrunch》 最先报道了此事。

LMArena 在该模型发布两天后在 X 上发帖称:“Meta 对我们政策的解读与我们对模型提供商的期望不符。Meta 应该更清楚地表明 ‘Llama-4-Maverick-03-26-Experimental’ 是一个定制模型,旨在优化人类偏好。因此,我们正在更新我们的排行榜政策,以加强我们对公平、可重复评估的承诺,以避免将来出现这种混淆。”

Meta 的发言人 Ashley Gabriel 在一封电子邮件声明中表示,“我们尝试所有类型的定制变体。”

Gabriel 说:“‘Llama-4-Maverick-03-26-Experimental’ 是我们尝试过的针对聊天优化的版本,它在 LMArena 上也表现良好。我们现在已经发布了我们的开源版本,并将看到开发人员如何为自己的用例定制 Llama 4。我们很高兴看到他们将构建什么,并期待他们持续的反馈。”

虽然 Meta 对 Maverick 所做的事情并没有明确违反 LMArena 的规则,但该网站已经分享了对操纵系统的担忧,并采取措施“防止过度拟合和基准泄漏”。当公司可以提交经过专门调整的模型版本进行测试,同时向公众发布不同的版本时,像 LMArena 这样的基准排名作为衡量实际性能的指标的意义就会降低。

独立 AI 研究员 Simon Willison 告诉 The Verge:“它是最受尊敬的通用基准,因为所有其他的基准都很糟糕。当 Llama 4 问世时,它在竞技场中排名第二,仅次于 Gemini 2.5 Pro 这一事实让我印象深刻,但我很后悔没有阅读小字部分。”

在 Meta 发布 Maverick 和 Scout 后不久,AI 社区开始讨论一个传言,即 Meta 也训练了其 Llama 4 模型,使其在基准测试(Benchmark)中表现更好,同时隐藏了它们的实际局限性。Meta 的生成式 AI 副总裁 Ahmad Al-Dahle 在 X 上发帖回应了这些指责:“我们还听到有人声称我们使用测试集进行训练 - 这根本不是真的,我们永远不会这样做。我们最好的理解是,人们看到的可变质量是由于需要稳定实施。”

“总的来说,这是一个非常令人困惑的版本。”

有些人还注意到 Llama 4 的发布时间很奇怪。周六通常不是发布重大 AI 新闻的时间。在 Threads 上有人问为什么 Llama 4 是在周末发布的时候,Meta 首席执行官 Mark Zuckerberg 回复说:“那是因为它准备好了。”

总的来说,这是一个非常令人困惑的版本,” Willison 说,他密切关注并记录 AI 模型。“我们得到的模型评分对我来说完全没有价值。我甚至无法使用他们获得高分的模型。”

Meta 发布 Llama 4 的道路并非一帆风顺。根据 The Information 最近的一份报告,由于该模型未能达到内部预期,该公司多次推迟发布。在中国开源 AI 初创公司 DeepSeek 发布了一个引起轰动的开源模型之后,这些期望尤其高。

最终,在 LMArena 中使用优化模型会使开发人员陷入困境。在为其应用程序选择像 Llama 4 这样的模型时,他们自然会参考基准测试(Benchmark)以获得指导。但正如 Maverick 的情况一样,这些基准测试(Benchmark)可能反映了公众可以访问的模型中实际上不可用的功能。

随着 AI 开发的加速,这一事件表明基准测试(Benchmark)正在成为战场。它还表明 Meta 渴望被视为 AI 领导者,即使这意味着操纵系统。

更新,4 月 7 日: 故事已更新,添加了 Meta 的声明。