谷歌发布 Gemini Diffusion:一种新的扩散模型 LLM
Simon Willison’s Weblog
Gemini Diffusion。 昨天在 Google I/O 上发布的另一项公告是 Gemini Diffusion,这是谷歌首个使用 diffusion(类似于 Imagen 和 Stable Diffusion 等图像模型)而非 transformers 的 LLM。
谷歌这样描述它:
传统的自回归语言模型一次生成一个词——或 token。 这种顺序过程可能很慢,并限制输出的质量和连贯性。
Diffusion 模型的工作方式不同。 它们不是直接预测文本,而是通过逐步细化噪声来学习生成输出。 这意味着它们可以非常快速地迭代解决方案,并在生成过程中进行错误纠正。 这有助于它们擅长编辑等任务,包括在数学和代码的上下文中。
那么,关键特性是 速度 。 我通过了候补名单,现在尝试了一下, 哇,他们并没有夸大它的速度。
在这个视频中,我用 "Build a simulated chat app" 提示它,它以 857 tokens/秒的速度响应,在几秒钟内生成一个交互式的 HTML+JavaScript 页面(嵌入在聊天工具,Claude Artifacts 样式中)。
性能感觉类似于 the Cerebras Coder tool,后者使用 Cerebras 以大约 2,000 tokens/秒的速度运行 Llama3.1-70b。
这个模型有多好? 我还没有看到任何独立的 benchmarks,但是谷歌的 landing page 承诺“Gemini 2.0 Flash-Lite 的性能,速度提高 5 倍”,所以他们可能认为它与 Gemini 2.0 Flash-Lite(他们最便宜的模型之一)相当。
在此之前,我遇到的唯一商业级 diffusion 模型是今年二月份的 Inception Mercury。
更新:来自 synapsomorphy on Hacker News 的更正:
Diffusion 不是取代 transformers,而是取代自回归。 之前的 diffusion LLM(如 Mercury)仍然使用 transformer,但没有因果掩码,因此整个输入一次性处理,输出生成显然不同。 我强烈怀疑它也使用了 transformer。
发布于 21st May 2025 at 9:44 p