Wonder's Lab

Home » Posts

关于自回归模型 (Autoregressive Models) 的一些思考

2025年2月20日 · 10 分钟 · Wonderfall | Source code 上次更新时间:2025年3月3日 目录

目前大多数生成式 AI 模型都是自回归的 (autoregressive)。 这意味着它们遵循下一个 token 预测的概念,而 transformer 架构是目前已经使用了多年的实现方式,这归功于它的计算效率。 这是一个相当简单的概念,很容易理解——只要你对细节不感兴趣——任何东西都可以被 token 化并输入到自回归 (AR) 模型中。 这里的“任何东西”是指所有事物:如你所期望的文本,还有图像、视频、3D 模型等等。 自回归模型可以表示和生成的东西没有限制,虽然预训练远未解决,但我认为可以公平地说,每个人或多或少都知道该怎么做。 这就是为什么今天的自回归模型,“多模态推理通用”大型语言模型 (LLMs),是如此强大的统计模型,以至于我们可能会看到泛化的特征。

AI研究的目的#

但是,AI 研究的最初目的是什么? 我将在这里代表我自己发言,但我知道许多其他 AI 研究人员也会说同样的话:最终目标是了解人类的思维方式。 我们认为,了解人类思维方式的最佳(或最有趣)的方法是尝试重现它。 但今天,当你看到 AI 被提及时,它主要与像 LLMs 这样的自回归模型有关。 该领域的主要参与者认为,他们可以通过继续扩展模型并应用各种有效的技巧(多模态、纯强化学习、测试时计算和搜索、agentic 系统)来实现人工通用智能 (AGI)。 现在判断这种方法是否有一个上限还为时过早,我也不想假装知道绝对真理。

然而,我一直在问自己以下问题:

自回归模型是近似人类思维的最佳方式吗?

你可以说 LLMs 由于其固有的线性是根本上愚蠢的。 他们是吗? 语言本身不就是线性的吗? 毕竟,自回归模型可能是一种简单而有效的方法,因为它们在对人类语言使用进行建模方面非常有效。 但在实践中存在许多限制。

术语澄清#

在统计领域,自回归模型意味着未来的输出(或预测)直接依赖于所有先前的输入(或 token)。 Transformers 也遵循这一原则,但与其他传统的线性自回归模型不同,它们使用高度非线性的机制(自注意力)来调节先前 token 的输出。

最终,transformers 仍然是下一个 token 预测器; 因此,当我提到“线性”时,我特别指的是下一个 token 生成本身的顺序性质,而不是暗示 transformers 完全缺乏非线性能力。

AR模型的局限性#

从设计上讲,AR 模型缺乏规划和推理能力。 如果你一次生成一个单词,你实际上并不知道你要去哪里。 你只是希望通过遵循一个思维链条达到一个好的结论。 大型推理模型的工作方式相同。 它们接受了使用 RL 的许多正式证明的训练,这些证明不太容易但也不太难。 由于 AR 模型是随机的,因此在涉及形式逻辑时,它们不会总是产生好的结果。 它们并没有像人类那样真正掌握抽象原则。

从技术上讲,神经网络(Neural Networks),正如它们通常被使用的那样,是函数逼近器,而大型语言模型 (LLMs) 基本上是在逼近人类如何使用语言的函数。 它们在这方面非常出色。 但是逼近一个函数与学习一个函数是不同的。——Gary Marcus(2025 年)

AR 模型的当前架构缺乏长期记忆,并且工作记忆有限。 一切都必须包含在上下文窗口中。 长期记忆可能是从先前交互中学习到的向量化信息,但最终,它必须适合相同的上下文窗口。 虽然具有更大上下文窗口的 LLMs 正在发布,但它们仍然受到繁重上下文工作负载下的主要一致性问题的困扰,这主要是由于注意力机制本身的限制。 Transformers 在训练期间具有计算效率,但它们的自注意力在推理期间随着输入长度呈二次方扩展,这也是拥有“长记忆”模型的实际限制之一。

这里有优化的空间,但最终,LLMs 没有像人类那样的记忆能力。 一旦经过训练,它们就不会从错误中吸取教训。 上下文窗口可以与人类的工作记忆进行比较:它快速、高效,但会迅速过载。 人类通过将先前学习的信息卸载到其他记忆形式来管理这种限制,而 LLMs 充其量只能表面上模仿这一过程。

当向不熟悉这个概念的人解释 LLMs 时,我经常使用 ZIP 文件类比来说明这些模型并不完全是“智能知识数据库”。 预训练本质上以一种非常具有损耗的方式压缩了人类知识——就像整个互联网一样。 或者,如果你有无限的时间,那就好像一个人在阅读一个巨大的图书馆。 虽然有办法减轻这种损耗,但由于其固有的随机性,由此产生的 AR 模型将始终产生不确定的输出。

因此,AR 模型会产生幻觉。 人类也会产生幻觉。 但我担心这里的“幻觉”一词被滥用了,因为它赋予了 AR 模型它们实际上不具备的人类特征。 AR 模型和人类之间幻觉的性质截然不同,因为一个具有世界模型,而另一个则没有。 虽然人类会犯(很多)错误,但他们确实具有 AR 模型缺乏的这种常识性理解。 我什至会说,我通常比普通人更信任 SOTA LLM,但是,我可能不容易检测到 LLMs 中的幻觉,这可能会有问题。

当然,有很多方法可以限制 LLM 幻觉的风险。 检索增强生成 (RAG) 是一种常见的方法:我们在推理期间将尽可能多的相关数据放入 LLM 上下文窗口中,并且我们希望它在某些特定任务中表现更好。 我们还可以调整推理参数,以牺牲创造力为代价,使 token 预测变得更加严格(温度等)。 最终,随机模型总是会犯听起来合理的错误。

暴露偏差也是自回归范式中固有的问题。 如果它们在早期犯了一个小错误,这将最终导致更多错误。 该模型很容易脱轨并产生不相关和重复的输出。 人类会注意到他们何时在兜圈子,并且有能力“纠正方向”,而 LLMs 缺乏这种能力。 我们可能会在推理模型中看到这种能力出现的迹象,但这仍然有些有限。 把它想象成开车:人类驾驶员会很快注意到(希望如此)他们何时走错了路,并重新思考路线以纠正这个错误。 虽然 AR 模型有时可能会给人一种自我意识的错觉,但它们往往在开始后从不再次检查路线:它们继续向前行驶,它们可能会随机转弯或走它们已经走过的道路,希望最终到达正确的目的地(如果你看过 Claude 玩 Pokémon,你就会明白我的意思)。

探索其他范式#

人类的思维不仅仅涉及将单词连接在一起,而且我认为,如果 AI 模型没有表现出扎实的规划和记忆能力,就永远无法实现 AGI。 这并不是说应该完全放弃 AR 模型,它们仍然是非常有用的工具。 它们甚至可以用作更复杂的架构的一部分,以解决这些限制。

Yann LeCun 是一位著名的 AI 研究人员,他也是 AR 模型的直言不讳的批评者。 他建议在其他范式中进行研究,以实现类似人类的认知。 他正在研究一种名为 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)的架构,该架构通过迭代改进而不是像传统的 AR 模型那样逐步生成每个细节来生成内容。 这意味着 JEPA 的目标不是专注于生成细节,而是专注于状态和方面来学习世界。

与其进行原始序列预测,不如使用一种专注于抽象预测的自监督学习。 这毕竟是有道理的,因为例如,人类并不会真正逐像素地感知世界。 真正的智能标志将是专注于核心概念,以抽象的方式专注于基本信息,这可能就是我们如何实现目标驱动型 AI 模型的方式。

在对扩散模型进行了一些研究之后,我也想知道它们如何用于文本生成。 扩散模型与 AR 模型相比非常不同:它们本质上也是随机的,但它们不是在定义的方向上生成的(例如从左到右的文本生成)。 相反,它们从噪声开始,并且该模型知道如何在每个步骤中迭代地去噪以实现有意义的结果,换句话说,与训练数据分布对齐。 你可以说它们的作用与基于 transformer 的模型相反:它们的内部推理过程是迭代的,但它们在每个步骤中执行并行预测。 与具有暴露偏差的 AR 模型不同,这显示了全局一致性:如果某些内容似乎不合适,则可以在以后进行更正,因为该模型具有经过改进过程的全局概念。

这看起来更像是人类起草的过程,因为我们不一定首先用文字思考。 一个大型扩散文本模型的例子可能是最近的 LLaDA 模型; 如果你可以看一下它,那将非常有趣。

我们不仅仅是预测机器#

现代神经科学指出,大脑是一台预测机器。 我觉得这很有道理:我们不断地预测。 当我们有做某事的想法时,在行动之前,我们可能会首先评估结果,因此本质上是在进行预测。 我认为这不仅是人类拥有的,而且在更广泛的意义上也是动物拥有的。 语言处理也不例外,我们从图像研究中了解到,大脑会积极地预测即将出现的模式或单词,就像 AR 模型一样。 如果我写一些类似的内容:

猫正在追逐一只____

很明显,你会在开始阅读这句话之前强烈预测这个词是“老鼠”。 训练 AR 模型本质上就是这样:我们剪掉最后一部分文本,然后我们使用反向传播进行训练。 所以他们在这方面变得非常擅长,就像人类一样。 我的观点是,大脑也在进行下一个单词的预测(尽管,LLMs 实际上并没有进行下一个单词的预测,因为 token 可能只是文本块,不一定是单词)。

然而,人类的思维是一个更复杂的故事。 我们确实有内在的语言,并且我们在内部使用语言,因此 AR 模型也可以实现这一点。 好吧,这不一定与我们使用的语言相同。 但除了内在的语言之外,还有非顺序的思考和计划,我们无法使用简单的马尔可夫链来表示它们。 在说出一个句子之前,我们对我们要说什么有一个大致的了解; 我们实际上并没有根据最后几个词来选择接下来要说什么。 这种计划无法按顺序表示。

人类的心灵不像 ChatGPT 及其同类那样,是一个笨拙的统计引擎,用于模式匹配,吞噬着数百 TB 的数据,并推断出最有可能的对话反应或最可能回答科学问题。 相反,人类的心灵是一个非常高效甚至优雅的系统,它以少量信息运行; 它不是试图推断数据点之间的粗略相关性,而是创造解释。 ——Noam Chomsky

因此,虽然大脑是一台预测机器,但有强烈的证据表明并非所有的思维都是语言的或顺序的。 并非我们思考或表达的一切都必须遵循内在的叙述。 我们有时拥有的那种“直觉”就是一个例子,我们甚至无法在科学层面上完全理解,更不用说 AR 模型了。 一个想法通常首先被表示出来,然后被线性化以进行沟通或改进。 目前的大型推理模型仍然缺乏那种非顺序的计划,我认为仅靠后期训练不会改变它们的性质(但在某些特定任务中可以产生很好的结果)。

人类的语言和思想并非纯粹的自回归,而且预测只能到此为止。 这正是 AI 研究朝着在新架构中结合规划、记忆和世界模型方向发展的原因,并且它们有望捕捉到思维的非自回归方面。

« PrevSetting up MTA-STS with a custom domain on Proton MailCC BY-SA 4.0 - Powered by Hugo & WonderMod