AI 的下半场：从解决问题到定义问题

The Second Half

Source | HN Comments

文章认为AI已进入“下半场”，重点从解决问题转向定义问题。上半场主要关注训练方法和模型，通过基准测试衡量进步。但随着“可行方案”的出现，基准测试攀登变得容易，新方法优势减弱。下半场需要重新思考评估，创建更贴近现实世界的新评估设置，例如考虑人机交互和任务的顺序性，以推动AI在实际效用上的发展。文章强调，下半场的关键在于打破现有假设，构建有用的智能产品，从而实现真正的突破。

Shunyu Yao

姚顺雨

AI 的下半场

概要：我们正处于 AI 的中场休息时刻。

几十年来，AI 主要致力于开发新的训练方法和模型。而且它奏效了：从在国际象棋和围棋上击败世界冠军，到在 SAT 和律师考试中超越大多数人类，再到赢得 IMO 和 IOI 金牌。这些历史性的里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背后都是 AI 方法的根本创新：搜索、深度 RL、扩展和推理。随着时间的推移，情况只会变得更好。

那么现在突然有什么不同了呢？

用三个字概括：RL 终于奏效了。更准确地说：RL 终于可以泛化了。经过几次重大的弯路和一系列里程碑的积累，我们最终找到了一种有效的方法，可以使用语言和推理来解决各种 RL 任务。即使在一年前，如果你告诉大多数 AI 研究人员，一种单一的方法可以处理软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作以及长篇问答——他们会嘲笑你的幻觉。这些任务都非常困难，许多研究人员花费整个博士生涯只专注于其中的一小部分。

然而，它确实发生了。

那么接下来会发生什么？AI 的下半场——从现在开始——将把重点从解决问题转移到定义问题。在这个新时代，评估变得比训练更重要。我们不再只是问“我们能否训练一个模型来解决 X？”，而是问“我们应该训练 AI 做什么，以及我们如何衡量真正的进展？” 要想在下半场取得成功，我们需要及时转变思维模式和技能组合，这种转变可能更接近于产品经理。

上半场

要理解上半场，可以看看它的赢家。你认为迄今为止最具影响力的 AI 论文是什么？

我尝试了 Stanford 224N 的测验，答案并不令人意外：Transformer、AlexNet、GPT-3 等。这些论文有什么共同点？它们提出了一些根本性的突破来训练更好的模型。而且，它们设法通过在某些基准测试上展示一些（显着的）改进来发表论文。

不过，这里存在一种潜在的共性：这些“赢家”都是训练方法或模型，而不是基准测试或任务。即使可以说是最具影响力的基准测试 ImageNet，其引用次数也只有 AlexNet 的不到三分之一。方法与基准测试的对比在其他任何地方都更加剧烈——例如，Transformer 的主要基准测试是 WMT'14，其研讨会报告有约 1,300 次引用，而 Transformer 则有 >160,000 次引用。

first_half

这说明了上半场的游戏规则：专注于构建新的模型和方法，而评估和基准测试是次要的（尽管对于使论文系统发挥作用是必要的）。

为什么？一个很大的原因是，在 AI 的上半场，方法比任务更难也更令人兴奋。从头开始创建一个新的算法或模型架构——想想反向传播算法、卷积网络 (AlexNet) 或 GPT-3 中使用的 Transformer 等突破——需要非凡的洞察力和工程能力。相比之下，定义 AI 的任务通常感觉更直接：我们只是将人类已经做的事情（如翻译、图像识别或国际象棋）转化为基准测试。没有太多的洞察力甚至工程。

方法也往往比单个任务更通用且适用范围更广，这使得它们特别有价值。例如，Transformer 架构最终推动了 CV、NLP、RL 和许多其他领域的进步——远远超出了它首次证明自己的单个数据集（WMT'14 翻译）。一种伟大的新方法可以攀登许多不同的基准测试，因为它简单而通用，因此其影响往往超出单个任务。

这个游戏已经持续了几十年，并激发了改变世界的想法和突破，这些想法和突破通过各个领域中不断提高的基准测试性能体现出来。为什么游戏会发生改变？因为这些想法和突破的积累在解决任务方面创造了质的差异，形成了一套可行的方案。

可行的方案

什么是可行的方案？不出所料，它的成分包括大规模的语言预训练、规模（在数据和计算方面）以及推理和行动的概念。这些听起来可能像你在旧金山每天听到的流行语，但为什么称它们为可行的方案呢？？

我们可以通过强化学习 (RL) 的视角来理解这一点，强化学习通常被认为是 AI 的“终局”——毕竟，RL 在理论上保证可以赢得游戏，并且在经验上很难想象没有 RL 的任何超人系统（例如 AlphaGo）。

在 RL 中，有三个关键组成部分：算法、环境和先验。长期以来，RL 研究人员主要关注算法（例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO...）——代理如何学习的知识核心——同时将环境和先验视为固定的或最小的。例如，Sutton 和 Barto 的经典教科书全部是关于算法的，几乎没有关于环境或先验的内容。

first_half

然而，在深度 RL 时代，很明显环境在经验上非常重要：算法的性能通常高度依赖于它所开发和测试的环境。如果你忽略环境，你可能会构建一个仅在玩具环境中表现出色的“最佳”算法。那么为什么我们不先弄清楚我们实际想要解决的环境，然后找到最适合它的算法呢？

这正是 OpenAI 最初的计划。它构建了 gym，一个用于各种游戏的标准 RL 环境，然后是 World of Bits and Universe projects，试图将互联网或计算机变成游戏。一个好的计划，不是吗？一旦我们将所有数字世界变成一个环境，用智能 RL 算法解决它，我们就拥有了数字 AGI。

一个好的计划，但并不完全奏效。OpenAI 在这条道路上取得了巨大的进步，使用 RL 来解决 Dota, 机械手臂等。但它从未接近解决计算机使用或网络导航的问题，并且在一个领域工作的 RL 代理无法转移到另一个领域。缺少了一些东西。

直到 GPT-2 或 GPT-3 之后，才发现缺失的部分是先验。你需要强大的语言预训练将一般的常识和语言知识提炼到模型中，然后可以对其进行微调以成为网络 (WebGPT) 或聊天 (ChatGPT) 代理（并改变世界）。事实证明，RL 中最重要的部分可能甚至不是 RL 算法或环境，而是先验，可以通过与 RL 完全无关的方式获得。

语言预训练为聊天创建了良好的先验，但对于控制计算机或玩电子游戏来说效果不太好。为什么？这些领域离互联网文本的分布更远，并且天真地在这些领域上进行 SFT / RL 泛化效果不佳。我在 2019 年注意到了这个问题，当时 GPT-2 刚刚问世，我在此基础上进行了 SFT / RL 来解决基于文本的游戏 - CALM 是世界上第一个通过预训练语言模型构建的代理。但是代理需要数百万个 RL 步骤才能攀登单个游戏，并且它不会转移到新游戏。尽管这正是 RL 的特征，并且对于 RL 研究人员来说没有什么奇怪的，但我发现这很奇怪，因为我们人类可以轻松地玩一个新游戏并且可以明显地更好地进行零样本学习。然后我遇到了我一生中第一个尤里卡时刻之一 - 我们之所以可以泛化，是因为我们可以选择做的不只是“去 2 号柜子”或“用 1 号钥匙打开 3 号箱子”或“用剑杀死地牢”，我们还可以选择思考诸如“地牢很危险，我需要一种武器来战斗。没有可见的武器，所以也许我需要在锁着的盒子或箱子里找到一个。3 号箱子在 2 号柜子里，让我先去那里打开它”之类的事情。

reasoning

思考，或者说推理，是一种奇怪的行为 - 它不会直接影响外部世界，但推理的空间是开放式的且组合无限的——你可以思考一个词、一个句子、一段完整的段落，或者 10000 个随机的英语单词，但你周围的世界不会立即改变。在经典的 RL 理论中，这是一个糟糕的交易，并且使决策变得不可能。想象一下，你需要从两个盒子中选择一个，并且只有一个盒子有 100 万美元，而另一个盒子是空的。你预计可以赚 50 万美元。现在想象一下，我添加了无限个空盒子。你预计什么也赚不到。但是通过将推理添加到任何 RL 环境的动作空间中，我们可以利用语言预训练先验来泛化，并且我们可以为不同的决策提供灵活的测试时计算。这是一件非常神奇的事情，我很抱歉在这里没有完全理解它，我可能需要为此专门写另一篇博客文章。欢迎你阅读 ReAct 以了解代理推理的原始故事，并阅读我当时的感受。目前，我的直觉解释是：即使你添加了无限个空盒子，你一生中也曾在各种游戏中见过它们，并且选择这些盒子可以让你更好地为任何给定的游戏选择装有钱的盒子。我的抽象解释是：语言通过代理中的推理进行泛化。

一旦我们拥有正确的 RL 先验（语言预训练）和 RL 环境（添加语言推理作为动作），事实证明 RL 算法可能是最微不足道的部分。因此，我们有了 o-series、R1、深度研究、计算机使用代理，以及更多即将到来的东西。多么讽刺的事件！长期以来，RL 研究人员比环境更关心算法，并且没有人关注先验——所有 RL 实验本质上都是从头开始的。但是我们花了数十年的弯路才意识到也许我们的优先级应该完全颠倒过来。

但正如 Steve Jobs 所说：你无法通过向前看来连接点；你只能通过向后看来连接它们。

下半场

这种方案正在彻底改变游戏。回顾上半场的游戏：

我们开发了新颖的训练方法或模型来攀登基准测试。
我们创建了更难的基准测试并继续循环。

这个游戏正在被破坏，因为：

该方案已经基本上标准化了基准测试攀登，而不需要更多的新想法。随着该方案的扩展和良好泛化，你针对特定任务的新颖方法可能会将其改进 5%，而下一个 o-series 模型可能会在没有明确针对它的情况下将其改进 30%。
即使我们创建了更难的基准测试，该方案很快（并且越来越快）就会解决它们。我的同事 Jason Wei 制作了一张精美的图表来很好地可视化该趋势：

progress 那么下半场还剩下什么可以玩的呢？如果不再需要新颖的方法，并且更难的基准测试将越来越快地被解决，我们应该做什么？

我认为我们应该从根本上重新思考评估。这意味着不仅要创建新的和更难的基准测试，还要从根本上质疑现有的评估设置并创建新的设置，以便我们被迫发明超出可行方案的新方法。这很难，因为人类有惰性，很少质疑基本假设 - 你只是认为它们是理所当然的，而没有意识到它们是假设，而不是定律。

为了解释惰性，假设你发明了历史上最成功的基于人类考试的评估之一。这在 2021 年是一个非常大胆的想法，但 3 年后它已经饱和。你会怎么做？最有可能的是创建一个更难的考试。或者假设你解决了简单的编码任务。你会怎么做？最有可能的是找到更难的编码任务来解决，直到你达到 IOI 金牌水平。

惰性是自然的，但问题在于此。AI 已经在国际象棋和围棋上击败了世界冠军，在 SAT 和律师考试中超越了大多数人类，并在 IOI 和 IMO 上达到了金牌水平。但是世界并没有发生太大变化，至少从经济和 GDP 来看是如此。

我称之为效用问题，并认为它是 AI 最重要的问题。

也许我们很快就会解决效用问题，也许不会。无论哪种方式，这个问题的根本原因可能都出奇地简单：我们的评估设置在许多基本方面与现实世界的设置不同。举两个例子：

评估“应该”自动运行，因此通常代理接收一个任务输入，自主地执行操作，然后接收一个任务奖励。但实际上，代理必须在整个任务中与人互动——你不会只是给客服发送一条超长的消息，等待 10 分钟，然后期望得到详细的回复来解决所有问题。通过质疑这种设置，发明了新的基准测试，以吸引真正的人（例如 Chatbot Arena）或循环中的用户模拟（例如 tau-bench）。
评估“应该”以 i.i.d. 方式运行。如果你有一个包含 500 个任务的测试集，你独立地运行每个任务，平均任务指标，并获得一个总体指标。但实际上，你按顺序而不是并行地解决任务。Google SWE 随着她越来越熟悉该存储库，越来越好地解决了 google3 问题，但是 SWE 代理解决了同一存储库中的许多问题，而没有获得这种熟悉程度。我们显然需要长期记忆方法（并且有很多)，但是学术界没有适当的基准测试来证明这种需求的合理性，甚至没有质疑 i.i.d. 假设的适当勇气，而 i.i.d. 假设一直是机器学习的基础。

这些假设“一直”都是这样的，并且在这些假设下开发基准测试在 AI 的上半场中是可以的，因为当智能较低时，提高智能通常会提高效用。但是现在，通用方案保证可以在这些假设下工作。因此，玩下半场新游戏的方式是

我们开发用于现实世界效用的新颖评估设置或任务。
我们使用该方案解决它们，或者使用新颖的组件增强该方案。继续循环。

这个游戏很难，因为它不熟悉。但它令人兴奋。当上半场的玩家解决电子游戏和考试时，下半场的玩家可以通过构建有用的智能产品来建立数十亿或数万亿美元的公司。虽然上半场充满了增量方法和模型，但下半场在一定程度上过滤了它们。通用方案只会压制你的增量方法，除非你创建打破该方案的新假设。然后你就可以进行真正改变游戏规则的研究。

欢迎来到下半场！

致谢

这篇博客文章基于我在 Stanford 224N 和 Columbia 所做的演讲。我使用 OpenAI 深度研究来阅读我的幻灯片并撰写草稿。撰写于 2025 年 4 月 10 日