API 中的 GPT-4.1：全新系列 GPT 模型发布

GPT-4.1 in the API

Source | HN Comments

文章发布了全新的 GPT-4.1 系列模型，包括 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些模型在编码、指令遵循和长文本理解方面均有显著提升。GPT-4.1 在编码能力上超越了 GPT-4o，指令遵循和长文本处理能力也有所增强。GPT-4.1 mini 在性能上有所突破，GPT-4.1 nano 则以更低成本提供快速响应。文章还介绍了这些模型在实际应用中的表现，并提供了定价信息。

在 API 中引入 GPT-4.1

新系列 GPT 模型在编码、指令遵循和长文本理解方面进行了重大改进——此外还有我们首个 nano 模型。

在 Playground 试用

今天，我们将在 API 中发布三个新模型：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些模型全面超越了 GPT-4o 和 GPT-4o mini，在编码和指令遵循方面取得了重大进展。它们还拥有更大的上下文窗口——支持高达 100 万个 token 的上下文——并且能够通过改进的长文本理解更好地利用该上下文。它们具有 2024 年 6 月的最新知识截止日期。

GPT-4.1 在以下行业标准指标中表现出色：

编码：GPT-4.1 在 SWE-bench Verified 上得分 54.6%，比 GPT-4o 提高 _21.4%_abs ，比 GPT-4.5 提高 _26.6%_abs ，使其成为领先的编码模型。
指令遵循： 在 Scale’s MultiChallenge ⁠(opens in a new window) 基准测试中，该基准测试衡量了指令遵循能力，GPT-4.1 得分 38.3%，比 GPT-4o 提高了 10.5%abs。
长文本： 在 Video-MME ⁠(opens in a new window) 上，这是一个用于多模态长文本理解的基准，GPT-4.1 创造了新的最先进的结果——在长文本、无字幕类别中得分 72.0%，比 GPT-4o 提高了 6.7%abs。

虽然基准测试提供了有价值的见解，但我们在训练这些模型时侧重于实际效用。与开发者社区的密切协作和合作使我们能够针对对他们的应用最重要的任务优化这些模型。

为此，GPT-4.1 模型系列以更低的成本提供了卓越的性能。这些模型在延迟曲线的每个点都提高了性能。

GPT-4.1 family intelligence by latency

GPT-4.1 mini 是小型模型性能的重大飞跃，甚至在许多基准测试中都击败了 GPT-4o。它在智能评估中与 GPT-4o 相匹配或超过 GPT-4o，同时将延迟降低了近一半，并将成本降低了 83%。

对于需要低延迟的任务，GPT-4.1 nano 是我们最快、最便宜的模型。它以小尺寸提供卓越的性能，具有 100 万个 token 的上下文窗口，并在 MMLU 上获得 80.1%、GPQA 上获得 50.3% 以及 Aider 多语言编码上获得 9.8% 的分数——甚至高于 GPT-4o mini。它非常适合分类或自动完成等任务。

指令遵循可靠性和长文本理解方面的这些改进也使 GPT-4.1 模型在为代理或可以代表用户独立完成任务的系统提供支持方面更加有效。当与 Responses API ⁠(opens in a new window) 等原语结合使用时，开发者现在可以构建更实用、更可靠的代理，用于实际的软件工程、从大型文档中提取见解、以最少的人工干预解决客户请求以及其他复杂任务。

请注意，GPT-4.1 仅通过 API 提供。在 ChatGPT 中，指令遵循、编码和智能方面的许多改进已逐渐融入 GPT-4o 的 最新版本 ⁠(opens in a new window) 中，我们将在未来的版本中继续融入更多。

我们还将开始弃用 API 中的 GPT-4.5 Preview，因为 GPT-4.1 以更低的成本和延迟在许多关键功能上提供了改进或相似的性能。 GPT-4.5 Preview 将在三个月后（即 2025 年 7 月 14 日）关闭，以便开发者有时间过渡。 GPT-4.5 作为研究预览引入是为了探索和试验大型、计算密集型模型，我们从开发者的反馈中学到了很多。我们将继续把您告诉我们的在 GPT-4.5 中欣赏的创造力、写作质量、幽默和细微差别融入到未来的 API 模型中。

下面，我们将详细介绍 GPT-4.1 在多个基准测试中的表现，以及来自 Windsurf、Qodo、Hex、Blue J、Thomson Reuters 和 Carlyle 等 alpha 测试者的示例，这些示例展示了它如何在特定领域的任务中在生产环境中执行。

编码

GPT-4.1 在各种编码任务（包括代理式解决编码任务、前端编码、减少不必要的编辑、可靠地遵循 diff 格式、确保一致的工具使用等）方面明显优于 GPT-4o。

在 SWE-bench Verified 上，这是一种衡量实际软件工程技能的指标，GPT-4.1 完成了 54.6% 的任务，而 GPT-4o (2024-11-20) 为 33.2%。这反映了模型探索代码存储库、完成任务以及生成既可以运行又可以通过测试的代码的能力的改进。

对于 SWE-bench Verified ，会为模型提供代码存储库和问题描述，并且必须生成补丁来解决该问题。性能高度依赖于所使用的提示和工具。为了帮助重现和上下文化我们的结果，我们在此处描述了 GPT-4.1 的设置 here ⁠(opens in a new window)。我们的分数省略了 500 个问题中的 23 个，这些问题的解决方案无法在我们的基础设施上运行；如果保守地将这些问题评分为 0，则 54.6% 的分数将变为 52%。

对于希望编辑大型文件的 API 开发者来说，GPT-4.1 在各种格式的代码差异方面更加可靠。 GPT-4.1 在 Aider 的多语言 diff 基准测试 ⁠(opens in a new window) 中，GPT-4o 的得分提高了一倍以上，甚至超过了 GPT-4.5 8%abs。此评估既衡量了各种编程语言的编码能力，又衡量了模型以整体和差异格式生成更改的能力。我们专门训练了 GPT-4.1 以更可靠地遵循差异格式，这使开发者只需让模型输出已更改的行，而不是重写整个文件，从而节省成本和延迟。为了获得最佳的代码差异性能，请参阅我们的 提示指南 ⁠(opens in a new window)。对于喜欢重写整个文件的开发者，我们将 GPT-4.1 的输出 token 限制增加到 32,768 个 token（GPT-4o 为 16,384 个 token）。我们还建议使用 Predicted Outputs ⁠(opens in a new window) 以减少完整文件重写的延迟。

在 Aider 的多语言基准测试中，模型通过编辑源文件来解决来自 Exercism ⁠(opens in a new window) 的编码练习，允许一次重试。“整体”格式要求模型重写整个文件，这可能很慢且成本很高。“差异”格式要求模型编写一系列 搜索/替换块 ⁠(opens in a new window)。

GPT-4.1 还在前端编码方面大幅改进了 GPT-4o，并且能够创建功能更强大且更美观的 Web 应用。在我们的正面比较中，付费人工评分员在 80% 的时间内更喜欢 GPT-4.1 的网站而不是 GPT-4o 的网站。

Prompt: 制作一个抽认卡 Web 应用。用户应该能够创建抽认卡、搜索现有抽认卡、复习抽认卡以及查看复习的抽认卡上的统计信息。预加载十张卡片，其中包含一个印地语单词或短语及其英文翻译。复习界面：在复习界面中，单击或按空格键应翻转卡片，并进行平滑的 3D 动画以显示翻译。按箭头键应在卡片之间导航。搜索界面：搜索栏应在用户键入查询时动态提供结果列表。统计界面：统计页面应显示用户复习的卡片数量以及他们正确的百分比的图表。创建卡片界面：创建卡片页面应允许用户指定抽认卡的正面和背面，并添加到用户的收藏中。所有这些界面都应在侧边栏中可访问。生成一个单页 React 应用（将所有样式内联）。

GPT‑4o

GPT‑4.1

除了上述基准测试之外，GPT-4.1 还能更可靠地遵循格式，并且减少了不必要的编辑。在我们的内部评估中，代码上的不必要编辑从 GPT-4o 的 9% 降至 GPT-4.1 的 2%。

真实世界的例子

Windsurf ⁠(opens in a new window)： GPT-4.1 在 Windsurf 的内部编码基准测试中比 GPT-4o 高 60%，这与代码更改在首次审核时被接受的频率密切相关。他们的用户指出，它在工具调用方面效率提高了 30%，并且重复不必要的编辑或以过于狭窄、渐进的方式读取代码的可能性降低了约 50%。这些改进转化为更快的迭代和更流畅的工程团队工作流程。

Qodo ⁠(opens in a new window)： Qodo 使用一种受其微调基准测试启发的方法，在来自 GitHub pull request 的高质量代码审查生成方面，将 GPT-4.1 与其他领先模型进行了正面测试。在具有相同提示和条件的 200 个有意义的真实 pull request 中，他们发现 GPT-4.1 在 55% 的情况下提供了更好的建议。值得注意的是，他们发现 GPT-4.1 在精确性（知道何时不提出建议）和全面性（在需要时提供透彻的分析）方面表现出色，同时始终专注于真正关键的问题。

指令遵循

GPT-4.1 更可靠地遵循指令，并且我们已经在各种指令遵循评估中测量了显着改进。

我们开发了一种内部指令遵循评估，以跟踪模型在多个维度和几个关键指令遵循类别中的性能，包括：

格式遵循。 提供指定模型响应的自定义格式的指令，例如 XML、YAML、Markdown 等。
否定指令。 指定模型应避免的行为。（示例：“不要要求用户联系支持”）
有序指令。 提供模型必须按给定顺序遵循的一组指令。（示例：“首先询问用户的姓名，然后询问他们的电子邮件”）
内容要求。 输出包含某些信息的内容。（示例：“在编写营养计划时始终包含蛋白质含量”）
排名。 以特定方式对输出进行排序。（示例：“按人口数对响应进行排序”）
过度自信。 如果请求的信息不可用，或者请求不属于给定类别，则指示模型说“我不知道”或类似的话。（示例：“如果您不知道答案，请提供支持联系人电子邮件”）

这些类别是开发者关于指令遵循的哪些方面与他们最相关和最重要反馈的结果。在每个类别中，我们都划分了简单、中等和困难的提示。 GPT-4.1 在困难的提示方面比 GPT-4o 有显着改进。

我们的内部指令遵循评估基于真实的开发者用例和反馈，涵盖各种复杂程度的任务以及关于格式、详细程度、长度等的指令。

多回合指令遵循对于许多开发者来说至关重要——对于模型来说，在对话中保持一致性，并跟踪用户之前告诉它的内容非常重要。我们已经训练了 GPT-4.1 能够更好地从对话中过去的邮件中挑选出信息，从而实现更自然的对话。 Scale 的 MultiChallenge 基准测试是对这种能力的有用衡量标准，GPT-4.1 的表现比 GPT-4o 提高了 10.5%abs。

在 MultiChallenge ⁠(opens in a new window) 中，模型在多回合对话中受到挑战，以正确使用来自先前消息的四种类型的信息。

GPT-4.1 在 IFEval 上的得分也为 87.4%，而 GPT-4o 为 81.0%。 IFEval 使用带有可验证指令的提示（例如，指定内容长度或避免某些术语或格式）。

在 IFEval ⁠(opens in a new window) 中，模型必须生成符合各种指令的答案。

更好的指令遵循使现有应用更加可靠，并支持以前因可靠性差而受到限制的新应用。早期测试者指出，GPT-4.1 可能更字面化，因此我们建议在提示中明确而具体。有关 GPT-4.1 的提示最佳实践的更多信息，请参阅提示指南。

真实世界的例子

Blue J ⁠(opens in a new window)：在 Blue J 最具挑战性的真实税务场景的内部基准测试中，GPT-4.1 的准确率比 GPT-4o 高 53%。准确率的这种飞跃（对系统性能和用户满意度都至关重要）凸显了 GPT-4.1 对复杂法规的改进理解以及在长文本中遵循细微指令的能力。对于 Blue J 用户来说，这意味着更快、更可靠的税务研究以及更多用于高价值咨询工作的时间。

Hex ⁠(opens in a new window)：GPT-4.1 在 Hex 最具挑战性的 SQL 评估集上 ⁠(opens in a new window) 实现了近 2 倍的改进，展示了指令遵循和语义理解方面的显着提升。该模型在从大型、模糊的模式中选择正确的表方面更加可靠——这是一个上游决策点，它直接影响整体准确性，并且仅通过提示很难调整。对于 Hex 来说，这导致了手动调试的显着减少和更快地实现生产级工作流程的路径。

长文本

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 可以处理多达 100 万个 token 的上下文——高于之前 GPT-4o 模型的 128,000 个。 100 万个 token 超过了整个 React 代码库的 8 个副本，因此长文本非常适合处理大型代码库或大量长文档。

我们训练了 GPT-4.1 以可靠地关注整个 100 万个上下文长度的信息。我们还训练它在注意到相关文本和忽略长文本和短文本长度的干扰方面比 GPT-4o 可靠得多。长文本理解是法律、编码、客户支持和许多其他领域的应用程序的关键能力。

下面，我们将演示 GPT-4.1 在上下文窗口内不同位置检索隐藏的一小段信息（“针”）的能力。 GPT-4.1 在所有位置和所有上下文长度（一直到 100 万个 token）始终准确地检索针。它可以有效地提取相关详细信息以完成手头的任务，而不管它们在输入中的位置如何。

GPT-4.1 Needle in a Haystack accuracy graph

在我们的内部大海捞针评估中，GPT-4.1、GPT-4.1 mini 和 GPT 4.1 nano 都能在高达 1M 的上下文中的所有位置检索针。

但是，很少有真实世界的任务像检索单个、明显的针答案那样简单。我们发现用户经常需要我们的模型来检索和理解多条信息，并理解这些信息之间的关系。为了展示这种能力，我们将开源一个新的评估：OpenAI-MRCR（多轮指代消解）。

OpenAI-MRCR 测试模型在上下文中很好地隐藏的多个针之间查找和消除歧义的能力。评估包括用户和助手之间的多回合合成对话，其中用户要求撰写有关某个主题的文章，例如“写一首关于貘的诗”或“写一篇关于岩石的博客文章”。然后，我们在整个上下文中插入两个、四个或八个相同的请求。然后，模型必须检索与特定实例对应的响应（例如，“给我第三首关于貘的诗”）。

挑战来自于这些请求与上下文其余部分之间的相似性——模型很容易被细微的差异所误导，例如关于貘的短篇小说而不是诗歌，或者关于青蛙而不是貘的诗歌。我们发现 GPT-4.1 在高达 128K 个 token 的上下文长度上的表现优于 GPT-4o，并且即使在高达 100 万个 token 的情况下也能保持强大的性能。

但这项任务仍然很困难——即使对于高级推理模型也是如此。我们正在共享 评估数据集 ⁠(opens in a new window)，以鼓励进一步研究真实世界的长文本检索。

2 needle4 needle8 needle

OpenAI MRCR accuracy, 2 needle

在 OpenAI-MRCR ⁠(opens in a new window) 中，模型必须回答一个问题，该问题涉及消除 2、4 或 8 个散布在干扰因素中的用户提示之间的歧义。

OpenAI MRCR accuracy, 4 needle

在 OpenAI-MRCR ⁠(opens in a new window) 中，模型必须回答一个问题，该问题涉及消除 2、4 或 8 个散布在干扰因素中的用户提示之间的歧义。

OpenAI MRCR accuracy, 8 needle

在 OpenAI-MRCR ⁠(opens in a new window) 中，模型必须回答一个问题，该问题涉及消除 2、4 或 8 个散布在干扰因素中的用户提示之间的歧义。

我们还发布了 Graphwalks ⁠(opens in a new window)，这是一个用于评估多跳长文本推理的数据集。许多开发者使用长文本的用例需要在上下文中进行多次逻辑跳转，例如在编写代码时在多个文件之间跳转或在回答复杂的法律问题时交叉引用文档。

从理论上讲，模型（甚至人类）都可以通过对提示进行一次传递或通读来解决 OpenAI-MRCR 问题，但 Graphwalks 旨在需要跨上下文中的多个位置进行推理，并且无法按顺序解决。

Graphwalks 用由十六进制哈希组成的有向图填充上下文窗口，然后要求模型从图中的随机节点开始执行广度优先搜索 (BFS)。然后，我们要求它返回特定深度的所有节点。 GPT-4.1 在此基准测试中实现了 61.7% 的准确率，与 o1 的性能相匹配，并且轻松击败了 GPT-4o。

在 Graphwalks ⁠(opens in a new window) 中，要求模型从大型图中的随机节点执行广度优先搜索。

基准测试并不能说明全部情况，因此我们与 alpha 合作伙伴合作，以测试 GPT-4.1 在其真实长文本任务中的表现。

真实世界的例子

Thomson Reuters： ⁠(opens in a new window)Thomson Reuters 使用 CoCounsel（他们用于法律工作的专业级 AI 助手）测试了 GPT-4.1。与 GPT-4o 相比，在使用 GPT-4.1 在内部长文本基准测试中时，他们能够将多文档审查准确率提高 17%——这是衡量 CoCounsel 处理涉及多个冗长文档的复杂法律工作流程能力的重要指标。特别是，他们发现该模型在跨来源维护上下文和准确识别文档之间细微关系（例如相互冲突的条款或其他补充上下文）方面非常可靠——这些任务对于法律分析和决策至关重要。

Carlyle ⁠(opens in a new window)： Carlyle 使用 GPT-4.1 从多个冗长的文档（包括 PDF、Excel 文件和其他复杂格式）中准确提取细粒度的财务数据。根据他们的内部评估，它在从具有密集数据的大型文档中检索方面的性能提高了 50%，并且是第一个成功克服其他可用模型所见的关键限制的模型，包括大海捞针检索、中间丢失错误以及跨文档的多跳推理。

除了模型性能和准确性之外，开发者还需要模型能够快速响应以跟上并满足用户的需求。我们改进了推理堆栈以减少首个 token 的时间，并且通过提示缓存，您可以进一步缩短延迟，同时节省成本。在我们的初始测试中，对于 128,000 个 token 的上下文，GPT-4.1 的首个 token 的 p95 延迟约为 15 秒，对于 100 万个 token 的上下文，则长达半分钟。 GPT-4.1 mini 和 nano 更快，例如，对于具有 128,000 个输入 token 的查询，GPT-4.1 nano 最常在不到 5 秒的时间内返回首个 token。

视觉

GPT-4.1 系列在图像理解方面非常强大，尤其是 GPT-4.1 mini 代表着一个重大飞跃，在图像基准测试中通常击败 GPT-4o。

在 MMMU ⁠(opens in a new window) 中，模型回答包含图表、图表、地图等的问题。（注意：即使未包含图像，许多答案仍然可以从上下文中推断或猜测。）

在 MathVista ⁠(opens in a new window) 中，模型解决视觉数学任务。

在 CharXiv-Reasoning ⁠(opens in a new window) 中，模型回答有关科学论文中的图表的问题。

长文本性能对于多模式用例也很重要，例如处理长视频。在 Video-MME⁠(opens in a new window)（长文本，无字幕）中，模型根据 30-60 分钟的长视频回答多项选择题，而无需字幕。 GPT-4.1 实现了最先进的性能，得分 72.0%，高于 GPT-4o 的 65.3%。

在 Video-MME ⁠(opens in a new window) 中，模型根据 30-60 分钟的长视频回答多项选择题，而无需字幕。

定价

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 现已向所有开发者提供。

通过对推理系统进行效率改进，我们能够降低 GPT-4.1 系列的价格。对于中值查询，GPT-4.1 的价格比 GPT-4o 便宜 26%，而 GPT-4.1 nano 是我们有史以来最便宜、最快的模型。对于重复传递相同上下文的查询，我们将这些新模型的提示缓存折扣提高到 75%（之前为 50%）。最后，我们提供长文本请求，除标准按 token 成本外，不收取额外费用。

Model (Prices are per 1M tokens)| Input| Cached input| Output| Blended Pricing*
---|---|---|---|---
gpt-4.1| $2.00| $0.50| $8.00| $1.84
gpt-4.1-mini| $0.40| $0.10| $1.60| $0.42
gpt-4.1-nano| $0.10| $0.025| $0.40| $0.12
*Based on typical input/output and cache ratios.

这些模型可用于我们的 Batch API ⁠(opens in a new window)，并额外享受 50% 的定价折扣。

结论

GPT-4.1 是人工智能实际应用的重要一步。通过密切关注开发者的实际需求（从编码到指令遵循和长文本理解），这些模型为构建智能系统和复杂的代理应用解锁了新的可能性。我们不断受到开发者社区创造力的启发，并很高兴看到您使用 GPT-4.1 构建的内容。

附录

下面可以找到学术、编码、指令遵循、长文本、视觉和函数调用评估的完整结果列表。

学术知识

Category| GPT-4.1| GPT-4.1 mini| GPT-4.1 nano| GPT-4o (2024-11-20)| GPT-4o mini| OpenAI o1 (high)| OpenAI o3-mini (high)| GPT-4.5
---|---|---|---|---|---|---|---|---
AIME '24 | 48.1%| 49.6%| 29.4%| 13.1%| 8.6%| 74.3%| 87.3%| 36.7%
GPQA Diamond 1| 66.3%| 65.0%| 50.3%| 46.0%| 40.2%| 75.7%| 77.2%| 69.5%
MMLU | 90.2%| 87.5%| 80.1%| 85.7%| 82.0%| 91.8%| 86.9%| 90.8%
Multilingual MMLU | 87.3%| 78.5%| 66.9%| 81.4%| 70.5%| 87.7%| 80.7%| 85.1%
[1] Our implementation of GPQA uses a model to extract the answer instead of regex. For GPT-4.1, the difference was <1% (not statistically significant), but for GPT-4o model extraction improves scores significantly (~46% -> 54%).

编码评估

Category| GPT-4.1| GPT-4.1 mini| GPT-4.1 nano| GPT-4o (2024-11-20)| GPT-4o mini| OpenAI o1 (high)| OpenAI o3-mini (high)| GPT-4.5
---|---|---|---|---|---|---|---|---
SWE-bench Verified 2| 54.6%| 23.6%| -| 33.2%| 8.7%| 41.0%| 49.3%| 38.0%
SWE-Lancer | $176K(35.1%)| $165K(33.0%)| $77K(15.3%)| $163K(32.6%)| $116K(23.1%)| $160K(32.1%)| $90K(18.0%)| $186K(37.3%)
SWE-Lancer (IC-Diamond subset) | $34K(14.4%)| $31K(13.1%)| $9K(3.7%)| $29K(12.4%)| $11K(4.8%)| $29K(9.7%)| $17K(7.4%)| $41K(17.4%)
Aider’s polyglot: whole | 51.6%| 34.7%| 9.8%| 30.7%| 3.6%| 64.6%| 66.7%| -
Aider’s polyglot: diff | 52.9%| 31.6%| 6.2%| 18.2%| 2.7%| 61.7%| 60.4%| 44.9%
[2] We omit 23/500 problems that could not run on our infrastructure. If considered 0s, scores drop by approximately 2%. The full list of 23 tasks omitted are 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', and 'sphinx-doc__sphinx-9367'.

指令遵循评估

Category| GPT-4.1| GPT-4.1 mini| GPT-4.1 nano| GPT-4o (2024-11-20)| GPT-4o mini| OpenAI o1 (high)| OpenAI o3-mini (high)| GPT-4.5
---|---|---|---|---|---|---|---|---
Internal API instruction following (