Devstral

推出最佳的开源 coding agent 模型。

研究

2025年5月21日,Mistral AI

今天,我们推出了 Devstral,我们用于软件工程任务的 agentic LLM。Devstral 由 Mistral AI 和 All Hands AI 🙌 合作构建,并在 SWE-Bench Verified 上大幅优于所有开源模型。我们以 Apache 2.0 许可发布 Devstral。

Devstral Swe

用于软件开发的 Agentic LLM

虽然典型的 LLM 在编写独立函数或代码补全等原子编码任务中表现出色,但它们目前难以解决实际的软件工程问题。现实世界的开发需要在大型代码库中上下文相关地理解代码,识别不同组件之间的关系,以及识别复杂函数中的细微错误。

Devstral 旨在解决这个问题。Devstral 经过训练,可以解决真实的 GitHub 问题;它运行在 OpenHands 或 SWE-Agent 等代码 agent scaffolds 上,这些 scaffolds 定义了模型和测试用例之间的接口。在这里,我们展示了 Devstral 在流行的 SWE-Bench Verified 基准测试中的性能,这是一个包含 500 个真实 GitHub 问题的经过人工筛选以确保正确性的数据集。

Devstral 在 SWE-Bench Verified 上获得了 46.8% 的分数,比之前的开源 SoTA 模型高出 6% 以上。当在相同的测试 scaffold(由 All Hands AI 🙌 提供 的 OpenHands)下进行评估时,Devstral 超过了更大的模型,如 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B。

在下表中,我们还将 Devstral 与在任何 scaffold(包括模型自定义的 scaffold)下评估的封闭和开放模型进行了比较。在这里,我们发现 Devstral 的性能明显优于许多闭源替代方案。例如,Devstral 超过了最近的 GPT-4.1-mini 超过 20%。

多功能性:本地部署 ↔️ 企业使用 ↔️ 协同助手

Devstral 足够轻量,可以在单个 RTX 4090 或具有 32GB RAM 的 Mac 上运行,使其成为本地部署和设备上使用的理想选择。OpenHands 等编码平台允许模型与本地代码库交互,并快速解决问题。要亲自尝试,请查看文档教程视频

该模型的性能也使其成为企业中隐私敏感代码库上 agentic 编码的合适选择,尤其是那些受严格安全和合规性要求约束的代码库。

最后,如果您正在构建或使用 agentic 编码 IDE、插件或环境,Devstral 是添加到模型选择器的绝佳选择。

可用性

我们以 Apache 2.0 许可免费发布此模型,供社区构建、自定义和加速自主软件开发。要亲自尝试,请访问我们的模型卡

该模型也可通过我们的 API 以 devstral-small-2505 的名称获得,价格与 Mistral Small 3.1 相同:$0.1/M 输入 token 和 $0.3/M 输出 token。

如果您选择自行部署,您可以从今天开始在 HuggingFaceOllamaKaggleUnslothLM Studio 下载该模型。

对于需要在私有代码库上进行微调的企业部署,或者更高保真度的自定义(例如持续预训练或将 Devstral 的能力提炼到其他模型中),请联系我们以与我们的应用 AI 团队联系。

接下来是什么

Devstral 是一个研究预览版,我们欢迎反馈!我们正在努力构建一个更大的 agentic 编码模型,该模型将在未来几周内推出。

有兴趣讨论我们如何帮助您的团队使用 Devstral,以及我们的模型、产品和解决方案组合?联系我们,我们很乐意提供帮助。