PaperBench:评估 AI 复现 AI 研究的能力
PaperBench 是一个用于评估 AI 复制 AI 研究能力的基准。该基准要求 AI 代理从头开始复现 20 篇 ICML 2024 论文,包括理解论文、开发代码和执行实验。评估通过分层评分标准进行,总共包含 8,316 个可单独评分的任务,评分标准与论文作者共同制定。研究者使用 LLM 构建了自动裁判,并对其性能进行了评估。在 PaperBench 上,Claude 3.5 Sonnet (New) 表现最佳,平均得分为 21.0%。研究表明,模型尚未超越人类水平。代码已开源,以促进相关研究。
PaperBench
评估 AI 复制 AI 研究的能力。
我们推出了 PaperBench,这是一个基准,用于评估 AI 代理复制最先进 AI 研究的能力。代理必须从头开始复制 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、开发代码库和成功执行实验。为了进行客观评估,我们开发了评分标准,将每个复制任务分层分解为具有明确评分标准的较小子任务。PaperBench 总共包含 8,316 个可单独评分的任务。评分标准与每篇 ICML 论文的作者共同开发,以确保准确性和真实性。为了实现可扩展的评估,我们还开发了一种基于 LLM 的裁判,可以根据评分标准自动对复制尝试进行评分,并通过为裁判创建一个单独的基准来评估裁判的性能。我们在 PaperBench 上评估了几个前沿模型,发现性能最好的测试代理,即使用开源脚手架的 Claude 3.5 Sonnet (New),平均复制得分为 21.0%。最后,我们招募了顶尖的 ML PhD 来尝试 PaperBench 的一个子集,发现模型尚未超越人类基线。我们 开源 (在新窗口中打开) 我们的代码,以促进未来对 AI 代理的 AI 工程能力的研究。