Diffusion models 很有趣

大约一周前,我偶然看到了这条 推文,一家名为 Inception Labs 的公司发布了一个 Diffusion LLM (dLLM)。它不像传统的 LLM 那样自回归地从左到右预测 tokens,而是同时启动所有步骤,然后逐步生成有意义的词(开始/结束/中间等)。这种曾经在图像和视频模型中有效的方法,现在在代码生成方面优于类似大小的 LLM。

为什么它们对我来说很有趣?

在过去两年多的时间里,我一直在阅读、写作和从事 LLM 评估工作,我看到了这种范式的一些显而易见的好处:

传统 LLM 会产生幻觉 (hallucinate)。 它们就像在自信地胡编乱造文本,同时还在编造事实。这就是为什么它们有时会非常自信地开始一个句子,但最终却提出了一个愚蠢的建议。 dLLM 可以首先生成某些重要的部分,验证它们,然后再继续生成其余的部分。

Agents 可能会变得更好。 使用 dLLM,多步骤的 agent 工作流可能不会陷入循环。 规划、推理和自我纠正 agent 流程的关键组成部分,而我们目前可能由于 LLM 架构而受到瓶颈。 dLLM 可以通过确保从上到下整个计划保持一致来解决这个问题。 这就像在未来提前看到一点(基于您拥有的任何上下文),然后确保您不会陷入困境。

这是一个更近期的模型 对我提出的“解释博弈论 (Explain Game theory)” 提示的响应。 您可以注意到句子的最后一部分是在中间部分之前生成的。 运行一些查询并查看首先生成哪些词是很有趣的。

您可以在 HF 上亲自尝试。

2025 年 3 月 6 日 · Diffusion, evals, dLLMs, agents, hallucination