PaperBench

评估 AI 复制 AI 研究的能力。

阅读论文(在新窗口中打开)查看代码(在新窗口中打开)

我们推出了 PaperBench,这是一个基准,用于评估 AI 代理复制最先进 AI 研究的能力。代理必须从头开始复制 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、开发代码库和成功执行实验。为了进行客观评估,我们开发了评分标准,将每个复制任务分层分解为具有明确评分标准的较小子任务。PaperBench 总共包含 8,316 个可单独评分的任务。评分标准与每篇 ICML 论文的作者共同开发,以确保准确性和真实性。为了实现可扩展的评估,我们还开发了一种基于 LLM 的裁判,可以根据评分标准自动对复制尝试进行评分,并通过为裁判创建一个单独的基准来评估裁判的性能。我们在 PaperBench 上评估了几个前沿模型,发现性能最好的测试代理,即使用开源脚手架的 Claude 3.5 Sonnet (New),平均复制得分为 21.0%。最后,我们招募了顶尖的 ML PhD 来尝试 PaperBench 的一个子集,发现模型尚未超越人类基线。我们 开源 ⁠(在新窗口中打开) 我们的代码,以促进未来对 AI 代理的 AI 工程能力的研究。