推出 Devstral：最佳开源 Coding Agent 模型

Devstral

Source | HN Comments

Mistral AI 联合 [All Hands AI](https://www.all-hands.dev/) 发布了开源 coding agent 模型 Devstral。该模型在 SWE-Bench Verified 基准测试中表现优异，超越了所有开源模型，甚至优于部分闭源模型。Devstral 适用于软件工程任务，可在本地设备上运行，也可用于企业内部，支持 agentic 编码。该模型以 Apache 2.0 许可免费提供，可在 [HuggingFace](https://huggingface.co/mistralai/Devstral-Small-2505) 等平台下载，也可通过 API 使用。

Devstral

推出最佳的开源 coding agent 模型。

研究

2025年5月21日，Mistral AI

今天，我们推出了 Devstral，我们用于软件工程任务的 agentic LLM。Devstral 由 Mistral AI 和 All Hands AI 🙌 合作构建，并在 SWE-Bench Verified 上大幅优于所有开源模型。我们以 Apache 2.0 许可发布 Devstral。

Devstral Swe

用于软件开发的 Agentic LLM

虽然典型的 LLM 在编写独立函数或代码补全等原子编码任务中表现出色，但它们目前难以解决实际的软件工程问题。现实世界的开发需要在大型代码库中上下文相关地理解代码，识别不同组件之间的关系，以及识别复杂函数中的细微错误。

Devstral 旨在解决这个问题。Devstral 经过训练，可以解决真实的 GitHub 问题；它运行在 OpenHands 或 SWE-Agent 等代码 agent scaffolds 上，这些 scaffolds 定义了模型和测试用例之间的接口。在这里，我们展示了 Devstral 在流行的 SWE-Bench Verified 基准测试中的性能，这是一个包含 500 个真实 GitHub 问题的经过人工筛选以确保正确性的数据集。

Devstral 在 SWE-Bench Verified 上获得了 46.8% 的分数，比之前的开源 SoTA 模型高出 6% 以上。当在相同的测试 scaffold（由 All Hands AI 🙌 提供的 OpenHands）下进行评估时，Devstral 超过了更大的模型，如 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B。

在下表中，我们还将 Devstral 与在任何 scaffold（包括模型自定义的 scaffold）下评估的封闭和开放模型进行了比较。在这里，我们发现 Devstral 的性能明显优于许多闭源替代方案。例如，Devstral 超过了最近的 GPT-4.1-mini 超过 20%。

多功能性：本地部署 ↔️ 企业使用 ↔️ 协同助手

Devstral 足够轻量，可以在单个 RTX 4090 或具有 32GB RAM 的 Mac 上运行，使其成为本地部署和设备上使用的理想选择。OpenHands 等编码平台允许模型与本地代码库交互，并快速解决问题。要亲自尝试，请查看文档或教程视频。

该模型的性能也使其成为企业中隐私敏感代码库上 agentic 编码的合适选择，尤其是那些受严格安全和合规性要求约束的代码库。

最后，如果您正在构建或使用 agentic 编码 IDE、插件或环境，Devstral 是添加到模型选择器的绝佳选择。

可用性

我们以 Apache 2.0 许可免费发布此模型，供社区构建、自定义和加速自主软件开发。要亲自尝试，请访问我们的模型卡。

该模型也可通过我们的 API 以 devstral-small-2505 的名称获得，价格与 Mistral Small 3.1 相同：$0.1/M 输入 token 和 $0.3/M 输出 token。

如果您选择自行部署，您可以从今天开始在 HuggingFace、Ollama、Kaggle、Unsloth、LM Studio 下载该模型。

对于需要在私有代码库上进行微调的企业部署，或者更高保真度的自定义（例如持续预训练或将 Devstral 的能力提炼到其他模型中），请联系我们以与我们的应用 AI 团队联系。

接下来是什么

Devstral 是一个研究预览版，我们欢迎反馈！我们正在努力构建一个更大的 agentic 编码模型，该模型将在未来几周内推出。

有兴趣讨论我们如何帮助您的团队使用 Devstral，以及我们的模型、产品和解决方案组合？联系我们，我们很乐意提供帮助。