关于自回归模型 (Autoregressive Models) 的一些思考

Some Thoughts on Autoregressive Models

Source | HN Comments

文章探讨了自回归模型（AR）在人工智能领域的应用和局限性。作者认为，虽然AR模型（如LLMs）在生成文本等任务上表现出色，但其本质是预测下一个token，缺乏规划、推理和长期记忆能力。文章质疑AR模型是否是模拟人类思维的最佳方式，并指出其幻觉、暴露偏差等问题。作者提到了JEPA等其他范式，以及扩散模型在文本生成方面的潜力，强调AI研究需要探索更复杂的架构，以实现类似人类的认知，包括规划、记忆和世界模型。

Wonder's Lab

Home » Posts

关于自回归模型 (Autoregressive Models) 的一些思考

2025年2月20日 · 10 分钟 · Wonderfall | Source code 上次更新时间：2025年3月3日 目录

目前大多数生成式 AI 模型都是自回归的 (autoregressive)。这意味着它们遵循下一个 token 预测的概念，而 transformer 架构是目前已经使用了多年的实现方式，这归功于它的计算效率。这是一个相当简单的概念，很容易理解——只要你对细节不感兴趣——任何东西都可以被 token 化并输入到自回归 (AR) 模型中。这里的“任何东西”是指所有事物：如你所期望的文本，还有图像、视频、3D 模型等等。自回归模型可以表示和生成的东西没有限制，虽然预训练远未解决，但我认为可以公平地说，每个人或多或少都知道该怎么做。这就是为什么今天的自回归模型，“多模态推理通用”大型语言模型 (LLMs)，是如此强大的统计模型，以至于我们可能会看到泛化的特征。

AI研究的目的#

但是，AI 研究的最初目的是什么？我将在这里代表我自己发言，但我知道许多其他 AI 研究人员也会说同样的话：最终目标是了解人类的思维方式。我们认为，了解人类思维方式的最佳（或最有趣）的方法是尝试重现它。但今天，当你看到 AI 被提及时，它主要与像 LLMs 这样的自回归模型有关。该领域的主要参与者认为，他们可以通过继续扩展模型并应用各种有效的技巧（多模态、纯强化学习、测试时计算和搜索、agentic 系统）来实现人工通用智能 (AGI)。现在判断这种方法是否有一个上限还为时过早，我也不想假装知道绝对真理。

然而，我一直在问自己以下问题：

自回归模型是近似人类思维的最佳方式吗？

你可以说 LLMs 由于其固有的线性是根本上愚蠢的。他们是吗？语言本身不就是线性的吗？毕竟，自回归模型可能是一种简单而有效的方法，因为它们在对人类语言使用进行建模方面非常有效。但在实践中存在许多限制。

术语澄清#

在统计领域，自回归模型意味着未来的输出（或预测）直接依赖于所有先前的输入（或 token）。 Transformers 也遵循这一原则，但与其他传统的线性自回归模型不同，它们使用高度非线性的机制（自注意力）来调节先前 token 的输出。

最终，transformers 仍然是下一个 token 预测器；因此，当我提到“线性”时，我特别指的是下一个 token 生成本身的顺序性质，而不是暗示 transformers 完全缺乏非线性能力。

AR模型的局限性#

从设计上讲，AR 模型缺乏规划和推理能力。如果你一次生成一个单词，你实际上并不知道你要去哪里。你只是希望通过遵循一个思维链条达到一个好的结论。大型推理模型的工作方式相同。它们接受了使用 RL 的许多正式证明的训练，这些证明不太容易但也不太难。由于 AR 模型是随机的，因此在涉及形式逻辑时，它们不会总是产生好的结果。它们并没有像人类那样真正掌握抽象原则。

从技术上讲，神经网络（Neural Networks），正如它们通常被使用的那样，是函数逼近器，而大型语言模型 (LLMs) 基本上是在逼近人类如何使用语言的函数。它们在这方面非常出色。但是逼近一个函数与学习一个函数是不同的。——Gary Marcus（2025 年）

AR 模型的当前架构缺乏长期记忆，并且工作记忆有限。一切都必须包含在上下文窗口中。长期记忆可能是从先前交互中学习到的向量化信息，但最终，它必须适合相同的上下文窗口。虽然具有更大上下文窗口的 LLMs 正在发布，但它们仍然受到繁重上下文工作负载下的主要一致性问题的困扰，这主要是由于注意力机制本身的限制。 Transformers 在训练期间具有计算效率，但它们的自注意力在推理期间随着输入长度呈二次方扩展，这也是拥有“长记忆”模型的实际限制之一。

这里有优化的空间，但最终，LLMs 没有像人类那样的记忆能力。一旦经过训练，它们就不会从错误中吸取教训。上下文窗口可以与人类的工作记忆进行比较：它快速、高效，但会迅速过载。人类通过将先前学习的信息卸载到其他记忆形式来管理这种限制，而 LLMs 充其量只能表面上模仿这一过程。

当向不熟悉这个概念的人解释 LLMs 时，我经常使用 ZIP 文件类比来说明这些模型并不完全是“智能知识数据库”。预训练本质上以一种非常具有损耗的方式压缩了人类知识——就像整个互联网一样。或者，如果你有无限的时间，那就好像一个人在阅读一个巨大的图书馆。虽然有办法减轻这种损耗，但由于其固有的随机性，由此产生的 AR 模型将始终产生不确定的输出。

因此，AR 模型会产生幻觉。人类也会产生幻觉。但我担心这里的“幻觉”一词被滥用了，因为它赋予了 AR 模型它们实际上不具备的人类特征。 AR 模型和人类之间幻觉的性质截然不同，因为一个具有世界模型，而另一个则没有。虽然人类会犯（很多）错误，但他们确实具有 AR 模型缺乏的这种常识性理解。我什至会说，我通常比普通人更信任 SOTA LLM，但是，我可能不容易检测到 LLMs 中的幻觉，这可能会有问题。

当然，有很多方法可以限制 LLM 幻觉的风险。检索增强生成 (RAG) 是一种常见的方法：我们在推理期间将尽可能多的相关数据放入 LLM 上下文窗口中，并且我们希望它在某些特定任务中表现更好。我们还可以调整推理参数，以牺牲创造力为代价，使 token 预测变得更加严格（温度等）。最终，随机模型总是会犯听起来合理的错误。

暴露偏差也是自回归范式中固有的问题。如果它们在早期犯了一个小错误，这将最终导致更多错误。该模型很容易脱轨并产生不相关和重复的输出。人类会注意到他们何时在兜圈子，并且有能力“纠正方向”，而 LLMs 缺乏这种能力。我们可能会在推理模型中看到这种能力出现的迹象，但这仍然有些有限。把它想象成开车：人类驾驶员会很快注意到（希望如此）他们何时走错了路，并重新思考路线以纠正这个错误。虽然 AR 模型有时可能会给人一种自我意识的错觉，但它们往往在开始后从不再次检查路线：它们继续向前行驶，它们可能会随机转弯或走它们已经走过的道路，希望最终到达正确的目的地（如果你看过 Claude 玩 Pokémon，你就会明白我的意思）。

探索其他范式#

人类的思维不仅仅涉及将单词连接在一起，而且我认为，如果 AI 模型没有表现出扎实的规划和记忆能力，就永远无法实现 AGI。这并不是说应该完全放弃 AR 模型，它们仍然是非常有用的工具。它们甚至可以用作更复杂的架构的一部分，以解决这些限制。

Yann LeCun 是一位著名的 AI 研究人员，他也是 AR 模型的直言不讳的批评者。他建议在其他范式中进行研究，以实现类似人类的认知。他正在研究一种名为 JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）的架构，该架构通过迭代改进而不是像传统的 AR 模型那样逐步生成每个细节来生成内容。这意味着 JEPA 的目标不是专注于生成细节，而是专注于状态和方面来学习世界。

与其进行原始序列预测，不如使用一种专注于抽象预测的自监督学习。这毕竟是有道理的，因为例如，人类并不会真正逐像素地感知世界。真正的智能标志将是专注于核心概念，以抽象的方式专注于基本信息，这可能就是我们如何实现目标驱动型 AI 模型的方式。

在对扩散模型进行了一些研究之后，我也想知道它们如何用于文本生成。扩散模型与 AR 模型相比非常不同：它们本质上也是随机的，但它们不是在定义的方向上生成的（例如从左到右的文本生成）。相反，它们从噪声开始，并且该模型知道如何在每个步骤中迭代地去噪以实现有意义的结果，换句话说，与训练数据分布对齐。你可以说它们的作用与基于 transformer 的模型相反：它们的内部推理过程是迭代的，但它们在每个步骤中执行并行预测。与具有暴露偏差的 AR 模型不同，这显示了全局一致性：如果某些内容似乎不合适，则可以在以后进行更正，因为该模型具有经过改进过程的全局概念。

这看起来更像是人类起草的过程，因为我们不一定首先用文字思考。一个大型扩散文本模型的例子可能是最近的 LLaDA 模型；如果你可以看一下它，那将非常有趣。

我们不仅仅是预测机器#

现代神经科学指出，大脑是一台预测机器。我觉得这很有道理：我们不断地预测。当我们有做某事的想法时，在行动之前，我们可能会首先评估结果，因此本质上是在进行预测。我认为这不仅是人类拥有的，而且在更广泛的意义上也是动物拥有的。语言处理也不例外，我们从图像研究中了解到，大脑会积极地预测即将出现的模式或单词，就像 AR 模型一样。如果我写一些类似的内容：

猫正在追逐一只____

很明显，你会在开始阅读这句话之前强烈预测这个词是“老鼠”。训练 AR 模型本质上就是这样：我们剪掉最后一部分文本，然后我们使用反向传播进行训练。所以他们在这方面变得非常擅长，就像人类一样。我的观点是，大脑也在进行下一个单词的预测（尽管，LLMs 实际上并没有进行下一个单词的预测，因为 token 可能只是文本块，不一定是单词）。

然而，人类的思维是一个更复杂的故事。我们确实有内在的语言，并且我们在内部使用语言，因此 AR 模型也可以实现这一点。好吧，这不一定与我们使用的语言相同。但除了内在的语言之外，还有非顺序的思考和计划，我们无法使用简单的马尔可夫链来表示它们。在说出一个句子之前，我们对我们要说什么有一个大致的了解；我们实际上并没有根据最后几个词来选择接下来要说什么。这种计划无法按顺序表示。

人类的心灵不像 ChatGPT 及其同类那样，是一个笨拙的统计引擎，用于模式匹配，吞噬着数百 TB 的数据，并推断出最有可能的对话反应或最可能回答科学问题。相反，人类的心灵是一个非常高效甚至优雅的系统，它以少量信息运行；它不是试图推断数据点之间的粗略相关性，而是创造解释。 ——Noam Chomsky

因此，虽然大脑是一台预测机器，但有强烈的证据表明并非所有的思维都是语言的或顺序的。并非我们思考或表达的一切都必须遵循内在的叙述。我们有时拥有的那种“直觉”就是一个例子，我们甚至无法在科学层面上完全理解，更不用说 AR 模型了。一个想法通常首先被表示出来，然后被线性化以进行沟通或改进。目前的大型推理模型仍然缺乏那种非顺序的计划，我认为仅靠后期训练不会改变它们的性质（但在某些特定任务中可以产生很好的结果）。

人类的语言和思想并非纯粹的自回归，而且预测只能到此为止。这正是 AI 研究朝着在新架构中结合规划、记忆和世界模型方向发展的原因，并且它们有望捕捉到思维的非自回归方面。

« PrevSetting up MTA-STS with a custom domain on Proton Mail CC BY-SA 4.0 - Powered by Hugo & WonderMod