重磅推出：首个商业级规模的 Diffusion Language Model —— Mercury

Mercury, the first commercial-scale diffusion language model

Source | HN Comments

文章发布了首个商业级规模的 Diffusion Language Model —— Mercury。Mercury 系列 dLLMs 速度比现有 LLM 快 10 倍，成本也更低。Mercury Coder 是首个公开可用的 dLLM，代码生成速度超过每秒 1000 个 Token，在代码生成基准测试中表现出色。该模型支持 API 和本地部署，并与现有硬件和流程兼容。Mercury 的推出有望推动 AI 应用在速度、效率和功能上的提升。

隆重推出 Mercury，全球首个商业级规模的 Diffusion Language Model

我们训练的 diffusion language model 比当前一代的 LLM 快 10 倍，成本也低 10 倍，从而推动了语言模型在智能和速度方面的边界。我们训练的 diffusion language model 比当前一代的 LLM 快 10 倍，成本也低 10 倍，从而推动了语言模型在智能和速度方面的边界。

编码索引 vs. 输出速度：较小模型编码索引 vs. 输出速度：较小模型人工分析编码索引（代表 LiveCodeBench & SciCode 的平均值）；输出速度：每秒输出的 Token 数量；1,000 个输入 Token；以编码为中心的工作负载最具吸引力的象限要点：

我们宣布推出 Mercury 系列的 diffusion large language models (dLLMs)，这是新一代的 LLM，它推动了快速、高质量文本生成的边界。
Mercury 比当前速度优化的 LLM 快 10 倍。我们的模型在 NVIDIA H100s 上以每秒超过 1000 个 Token 的速度运行，这种速度以前只有使用定制芯片才有可能实现。
一个代码生成模型， Mercury Coder，可以在 playground 中进行测试。我们通过 API 和本地部署为企业客户提供代码模型和通用模型。

图 1 当前一代的 LLM 是自回归的，这意味着它们从左到右，一次生成一个 Token （左图）。我们的 diffusion language model 使用由粗到精的生成方式，其中多个 Token 并行更新（右图），从而实现前所未有的速度和内置的错误纠正。

我们的愿景——由 Diffusion 驱动的下一代 LLM

目前的大型语言模型是自回归的，这意味着它们从左到右，一次生成一个 Token。生成本质上是顺序的——在生成每个 Token 之前，必须生成它之前的所有文本——并且生成每个 Token 都需要评估一个具有数十亿参数的神经网络。前沿的 LLM 公司正在押注测试时计算，以提高推理和纠错能力，但是生成较长的推理轨迹会以推理成本飙升和无法使用的延迟为代价。需要一个范式转变才能使高质量的 AI 解决方案真正可访问。

Diffusion 模型提供了这样的范式转变。这些模型以“由粗到精”的生成过程运行，其中输出从纯噪声经过几个“去噪”步骤进行细化，如上面的视频所示。由于 diffusion 模型不限于仅考虑先前的输出，因此它们更擅长推理和构建其响应。并且由于 diffusion 模型可以不断地细化其输出，因此它们可以纠正错误和幻觉。由于这些原因，diffusion 驱动了所有最杰出的视频、图像和音频生成 AI 解决方案，包括 Sora、Midjourney 和 Riffusion。但是，将 diffusion 应用于离散数据（例如文本和代码）从未成功过。直到现在。

Mercury Coder - 以每秒 1000 多个 Token 的速度实现前沿智能

我们很高兴地宣布推出 Mercury Coder，这是我们第一个公开可用的 dLLM。

Mercury Coder 推动了 AI 能力的边界：它比当前一代的 LLM 快 5-10 倍，以低成本提供高质量的响应。我们的工作建立在我们创始人突破性研究的基础上——他们率先开发了第一个用于图像的 diffusion 模型——并且他们共同发明了核心的生成式 AI 技术，例如 Direct Preference Optimization、Flash Attention 和 Decision Transformers。

dLLM 是典型自回归 LLM 的直接替代品，支持其所有用例，包括 RAG、工具使用和 Agentic 工作流程。当提示查询时，答案不是一次生成一个 Token，而是以由粗到精的方式生成，如上面的动画所示。改进由神经网络提出——在我们的例子中是一个 Transformer 模型——该模型经过大量数据的训练，可以通过并行修改多个 Token 来全局提高答案的质量。

Mercury Coder 是专门为代码生成优化的 dLLM。当在标准编码基准上进行评估时， Mercury Coder 在许多基准上都取得了出色的质量，通常超过了速度优化的自回归模型（如 GPT-4o Mini 和 Claude 3.5 Haiku）的性能，同时速度提高了 10 倍。

代码模型结果

| | HumanEval | MBPP | EvalPlus | MultiPL-E | LiveCodeBench | BigCodeBench | Fill-in-the-Middle | | :-------------------- | :------------ | :------- | :----------- | :------------ | :---------------- | :--------------- | :--------------------- | | Mercury Coder Mini | 88.0 | 77.1 | 78.6 | 74.1 | 17.0 | 42.0 | 82.2 | | Mercury Coder Small | 90.0 | 76.6 | 80.4 | 76.2 | 25.0 | 45.5 | 84.8 | | Gemini 2.0 Flash-Lite | 90.0 | 75.0 | 77.3 | 79.5 | 18.0 | 44.4 | 60.1 | | Claude 3.5 Haiku | 86.0 | 78.0 | 75.1 | 72.3 | 31.0 | 45.4 | 45.5 | | GPT-4o Mini | 88.0 | 74.6 | 78.5 | 72.0 | 23.0 | 46.8 | 60.9 | | Qwen 2.5 Coder 7B | 90.0 | 80.0 | 79.3 | 75.3 | 9.0 | 41.4 | 56.1 | | DeepSeek Coder V2 Lite | 92.1 | 81.0 | 82.1 | 79.1 | 37.8 | 50.0 | 46.9 |

dLLM 的独特之处在于其速度。虽然即使是速度优化的自回归模型最多也以每秒 200 个 Token 的速度运行，但我们可以在商用 NVIDIA H100s 上以每秒超过 1000 个 Token 的速度提供 Mercury Coder，速度提高了 5 倍。与某些前沿模型（可以以低于每秒 50 个 Token 的速度运行）相比，我们提供了超过 20 倍的加速。

dLLM 实现的吞吐量以前只有使用专用硬件（例如 Groq、Cerebras 和 SambaNova）才能实现。我们的算法改进与硬件加速无关，并且加速将在更快的芯片上复合。

输出速度：较小模型每秒输出的 Token 数量；越高越好；1,000 个输入 Token；以编码为中心的工作负载我们也很高兴地报告说，开发人员更喜欢 Mercury 的代码完成，而不是现有的代码模型。在 Copilot Arena 上进行基准测试时， Mercury Coder Mini 并列第二名，超过了速度优化的模型（如 GPT-4o Mini 和 Gemini-1.5-Flash）甚至更大的模型（如 GPT-4o）的性能。与此同时，它是最快的模型，比 GPT-4o Mini 快约 4 倍。

我们邀请您在我们的 playground 中亲身体验我们模型的功能，该 playground 与 Lambda Labs 合作托管。体验 Mercury Coder 在一小部分时间内生成高质量代码的准确性，如下面的视频所示。

这对 AI 应用意味着什么

我们的早期采用者包括客户支持、代码生成和企业自动化等领域的市场领导者，他们正在成功地将标准自回归基础模型切换到我们的 dLLM，作为直接替代品。这转化为更好的用户体验和更低的成本。在对延迟敏感的应用程序中，我们的合作伙伴通常被限制使用更小、功能较弱的模型，以满足严格的延迟要求。得益于 dLLM 的卓越性能，这些合作伙伴现在可以使用更大、功能更强的模型，同时遵守其原始成本和速度要求。

我们通过 API 和本地部署提供对我们模型的访问。我们的模型与现有硬件、数据集和监督微调 (SFT) 和对齐 (RLHF) 管道完全兼容。微调支持适用于这两种部署选项。

请联系 sales@inceptionlabs.ai 讨论 dLLM 如何改变您的 genAI 应用程序。

访问我们的 API API PLATFORM 访问我们的 API API PLATFORM 访问我们的 API API PLATFORM 下一步是什么？

Mercury Coder 是即将推出的 dLLM 系列中的第一个。专为聊天应用程序设计的模型正在进行封闭测试。

Diffusion large language model 将为 LLM 释放一系列新功能，包括：

改进的 Agent —— dLLM 的速度和效率使其非常适合需要大量规划和长时间生成的 Agentic 应用程序。
高级推理 —— dLLM 可以利用错误纠正来修复幻觉并改进答案，同时仍然可以在几秒钟内思考，这与当前需要几分钟的自回归推理模型不同。
可控生成 —— dLLM 可以编辑其输出并按任何顺序生成 Token，从而允许用户填充文本，使输出与安全性等目标保持一致，或生成可靠地符合用户指定格式的输出。
边缘应用 —— 鉴于其效率，dLLM 在资源受限的环境中（例如手机和笔记本电脑上的边缘部署）表现出色。

我们对 dLLM 的未来感到非常兴奋。我们正处于一场革命的开端，这场革命将使高质量的 AI 得到广泛的应用。

资源

完整的模型详细信息可在我们的技术报告中找到。 VIEW REPORT VIEW REPORT VIEW REPORT 使用 dLLM！ VISIT PLAYGROUND VISIT PLAYGROUND VISIT PLAYGROUND ACCESS API ACCESS API ACCESS API 与我们合作

职位空缺

Full Stack Software EngineerBay Area, In office InternBay Area, In office Member of Technical Staff (Algorithms)Bay Area, In Office Member of Technical Staff (MLSys)Bay Area, In office Member of Technical Staff (NLP)Bay Area, In office Introducing a new generation of LLMs Get Started About Us News MODELS Careers (we’re hiring) API PLATFORM Playground Follow Contact hello@inceptionlabs.ai Palo AltoCalifornia PRIVACY POLICY / TERMS OF SERVICE [ Parallel text generation now live ] © 2025 Inception Introducing a new generation of LLMs Get Started About Us News MODELS Careers (we’re hiring) API PLATFORM Playground Follow Contact hello@inceptionlabs.ai Palo AltoCalifornia PRIVACY POLICY / TERMS OF SERVICE [ Parallel text generation now live ] © 2025 Inception Introducing a new generation of LLMs Get Started About Us News MODELS Careers (we’re hiring) API PLATFORM Playground Follow Contact hello@inceptionlabs.ai Palo AltoCalifornia Privacy Policy / Terms of service © 2025 Inception [ Parallel text generation now live ] Sign Up For early access to future models Sign Up ABOUT US MODELS NEWS CAREERS ACCESS API VISIT PLAYGROUND