Claude 4 模型发布:代码能力再创新高
Claude 4 发布
2025年5月22日 ● 5分钟阅读
今天,我们推出了新一代的 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,为编码、高级推理和 AI 代理设立了新标准。
Claude Opus 4 是世界上最好的编码模型,在复杂的、长时间运行的任务和代理工作流中表现出色。Claude Sonnet 4 是对 Claude Sonnet 3.7 的重大升级,提供了卓越的编码和推理能力,同时对您的指令做出更精确的响应。
除了这些模型之外,我们还宣布:
- 通过工具使用进行扩展思考 (beta):两种模型都可以在扩展思考期间使用工具,例如 web search,允许 Claude 在推理和工具使用之间交替,以改进响应。
- 新的模型能力:两种模型都可以并行使用工具,更精确地遵循指令,并且当开发者提供对本地文件的访问权限时,表现出显著改进的记忆能力,提取和保存关键事实,以保持连续性并随着时间的推移构建隐性知识。
- Claude Code 现已正式发布:在我们的研究预览期间收到广泛积极的反馈后,我们正在扩展开发者与 Claude 协作的方式。Claude Code 现在支持通过 GitHub Actions 的后台任务以及与 VS Code 和 JetBrains 的原生集成,直接在您的文件中显示编辑内容,以实现无缝的结对编程。
- 新的 API 功能:我们正在发布 Anthropic API 上的 四项新功能,使开发者能够构建更强大的 AI 代理:代码执行工具、MCP 连接器、Files API 以及缓存提示长达一小时的能力。
Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深入推理的扩展思考。Pro、Max、Team 和 Enterprise Claude 计划都包括这两种模型和扩展思考,Sonnet 4 也可供免费用户使用。两种模型都可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万 tokens 15 美元/75 美元(输入/输出),Sonnet 4 为 3 美元/15 美元。
Claude 4
Claude Opus 4 是我们迄今为止最强大的模型,也是世界上最好的编码模型,在 SWE-bench (72.5%) 和 Terminal-bench (43.2%) 上处于领先地位。它在需要集中精力和数千个步骤的长时间运行的任务中提供持续的性能,能够连续工作数小时,大大超过了所有 Sonnet 模型,并显着扩展了 AI 代理可以完成的任务。
Claude Opus 4 擅长编码和复杂的解决问题,为前沿代理产品提供动力。Cursor 称其为编码领域的最新技术,并且是复杂代码库理解方面的飞跃。Replit 报告说,对于跨多个文件的复杂更改,精度有所提高,并且取得了显着进步。Block 称其为第一个在其代理 codename goose 中在编辑和调试期间提高代码质量同时保持完整性能和可靠性的模型。Rakuten 通过一项独立运行 7 小时并保持持续性能的苛刻的开源重构验证了其功能。Cognition 指出 Opus 4 擅长解决其他模型无法解决的复杂挑战,成功处理了以前的模型错过的关键操作。
Claude Sonnet 4 显着改进了 Sonnet 3.7 在行业领先的功能,在 SWE-bench 上以 72.7% 的最新技术水平在编码方面表现出色。该模型平衡了性能和效率,适用于内部和外部用例,并具有增强的可操纵性,可更好地控制实现。虽然在大多数领域无法与 Opus 4 相提并论,但它提供了功能和实用性的最佳组合。
GitHub 表示 Claude Sonnet 4 在代理场景中表现出色,并将将其作为为 GitHub Copilot 中新的编码代理提供支持的模型。Manus 强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 擅长自主多功能应用程序开发,并且问题解决和代码库导航能力也得到了显着提高,从而将导航错误从 20% 降低到接近于零。Sourcegraph 表示该模型显示出作为软件开发领域的重大飞跃的希望——更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称,更高的成功率、更精确的代码编辑以及更仔细地完成复杂的任务,使其成为其主要模型的首选。
这些模型全面提升了我们客户的 AI 策略:Opus 4 推动了编码、研究、写作和科学发现领域的边界,而 Sonnet 4 将前沿性能带到了日常用例中,作为 Sonnet 3.7 的即时升级。
Claude 4 模型在 SWE-bench Verified 上处于领先地位,这是衡量实际软件工程任务性能的基准。有关方法的更多信息,请参见附录。
Claude 4 模型在编码、推理、多模态能力和代理任务方面表现出色。有关方法的更多信息,请参见附录。
模型改进
除了使用工具进行扩展思考、并行工具执行和内存改进之外,我们还大大减少了模型使用捷径或漏洞来完成任务的行为。在特别容易受到捷径和漏洞影响的代理任务中,这两种模型参与这种行为的可能性比 Sonnet 3.7 低 65%。
Claude Opus 4 在记忆能力方面也大大优于所有以前的模型。当开发者构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 变得擅长创建和维护“内存文件”以存储关键信息。这释放了更好的长期任务感知、连贯性和代理任务的性能——例如 Opus 4 在玩 Pokémon 时创建“导航指南”。
Memory: When given access to local files, Claude Opus 4 records key information to help improve its game play. The notes depicted above are real notes taken by Opus 4 while playing Pokémon.
最后,我们为 Claude 4 模型引入了思维总结,该模型使用较小的模型来浓缩冗长的思维过程。这种总结仅在大约 5% 的时间需要——大多数思维过程都足够短,可以完全显示。需要原始思维链进行高级提示工程的用户可以 联系销售 了解我们的新开发者模式,以保留完全访问权限。
Claude Code
Claude Code 现已正式发布,将 Claude 的强大功能带到您更多的开发工作流程中——在终端、您喜欢的 IDE 中以及使用 Claude Code SDK 在后台运行。
适用于 VS Code 和 JetBrains 的新 beta 扩展将 Claude Code 直接集成到您的 IDE 中。Claude 提出的编辑建议以内联方式显示在您的文件中,从而简化了熟悉的编辑器界面内的审查和跟踪。只需在您的 IDE 终端中运行 Claude Code 即可安装。
除了 IDE 之外,我们还发布了一个可扩展的 Claude Code SDK,因此您可以使用与 Claude Code 相同的核心代理来构建自己的代理和应用程序。我们还发布了一个使用 SDK 可以实现的目标的示例:GitHub 上的 Claude Code,目前处于 beta 阶段。在 PR 上标记 Claude Code 以响应审阅者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。
开始使用
这些模型是朝着虚拟协作者的方向迈出的一大步——保持完整的上下文,持续关注更长的项目,并推动变革性的影响。它们经过广泛的测试和评估,以最大限度地减少风险并最大限度地提高安全性,包括 实施措施 以实现更高的 AI 安全级别(如 ASL-3)。
我们很高兴看到您将创造什么。立即在 Claude、Claude Code 或您选择的平台上开始使用。
一如既往,您的反馈有助于我们改进。
附录
性能基准数据来源
- Open AI: o3 launch post, o3 system card, GPT-4.1 launch post, GPT-4.1 hosted evals
- Gemini: Gemini 2.5 Pro Preview model card
- Claude: Claude 3.7 Sonnet launch post
性能基准报告
Claude Opus 4 和 Sonnet 4 是混合推理模型。本博文中报告的基准测试显示了在有或没有扩展思考的情况下获得的最高分数。我们在下面为每个结果注明了是否使用了扩展思考:
- 没有扩展思考:SWE-bench Verified, Terminal-bench
- 扩展思考(最多 64K tokens):
- TAU-bench (没有报告没有扩展思考的结果)
- GPQA Diamond (没有扩展思考: Opus 4 得分 74.9%,Sonnet 4 得分 70.0%)
- MMMLU (没有扩展思考: Opus 4 得分 87.4%,Sonnet 4 得分 85.4%)
- MMMU (没有扩展思考: Opus 4 得分 73.7%,Sonnet 4 得分 72.6%)
- AIME (没有扩展思考: Opus 4 得分 33.9%,Sonnet 4 得分 33.1%)
TAU-bench 方法
这些分数是通过对 Airline 和 Retail Agent Policy 的提示补充获得的,该提示指示 Claude 在使用工具的扩展思考时更好地利用其推理能力。该模型被鼓励在解决问题的过程中写下它的想法,这与我们通常的思考模式不同,在多轮轨迹中最好地利用它的推理能力。为了适应 Claude 因利用更多思考而产生的额外步骤,最大步骤数(以模型完成次数计算)从 30 增加到 100(大多数轨迹在 30 步以下完成,只有一个轨迹达到 50 步以上)。
SWE-bench 方法
对于 Claude 4 系列模型,我们继续使用相同的简单支架,该支架仅为模型配备了我们之前版本中描述的两种工具 here——一个 bash 工具和一个通过字符串替换操作的文件编辑工具。我们不再包括 Claude 3.7 Sonnet 使用的 第三个“规划工具”。在所有 Claude 4 模型上,我们报告了满分 500 个问题的分数。OpenAI 模型的分数报告为 477 个问题的子集。
对于我们的“高计算”数字,我们采用额外的复杂性和并行测试时间计算,如下所示:
- 我们对多个并行尝试进行采样。
- 我们放弃破坏存储库中可见回归测试的补丁,类似于 Agentless (Xia et al. 2024) 采用的拒绝抽样方法;请注意,未使用隐藏的测试信息。
- 然后,我们使用内部评分模型从剩余的尝试中选择最佳候选者。
这导致 Opus 4 和 Sonnet 4 的分数分别为 79.4% 和 80.2%。