PaperBench：评估 AI 复现 AI 研究的能力

PaperBench

Source | HN Comments

PaperBench 是一个用于评估 AI 复制 AI 研究能力的基准。该基准要求 AI 代理从头开始复现 20 篇 ICML 2024 论文，包括理解论文、开发代码和执行实验。评估通过分层评分标准进行，总共包含 8,316 个可单独评分的任务，评分标准与论文作者共同制定。研究者使用 LLM 构建了自动裁判，并对其性能进行了评估。在 PaperBench 上，Claude 3.5 Sonnet (New) 表现最佳，平均得分为 21.0%。研究表明，模型尚未超越人类水平。代码已开源，以促进相关研究。

PaperBench

评估 AI 复制 AI 研究的能力。

阅读论文(在新窗口中打开)查看代码(在新窗口中打开)

我们推出了 PaperBench，这是一个基准，用于评估 AI 代理复制最先进 AI 研究的能力。代理必须从头开始复制 20 篇 ICML 2024 Spotlight 和 Oral 论文，包括理解论文贡献、开发代码库和成功执行实验。为了进行客观评估，我们开发了评分标准，将每个复制任务分层分解为具有明确评分标准的较小子任务。PaperBench 总共包含 8,316 个可单独评分的任务。评分标准与每篇 ICML 论文的作者共同开发，以确保准确性和真实性。为了实现可扩展的评估，我们还开发了一种基于 LLM 的裁判，可以根据评分标准自动对复制尝试进行评分，并通过为裁判创建一个单独的基准来评估裁判的性能。我们在 PaperBench 上评估了几个前沿模型，发现性能最好的测试代理，即使用开源脚手架的 Claude 3.5 Sonnet (New)，平均复制得分为 21.0%。最后，我们招募了顶尖的 ML PhD 来尝试 PaperBench 的一个子集，发现模型尚未超越人类基线。我们开源 ⁠(在新窗口中打开) 我们的代码，以促进未来对 AI 代理的 AI 工程能力的研究。