“苦涩的教训” 适用于 AI Agent

Bitter Lesson is about AI agents

Source | HN Comments

文章核心观点是，在构建AI系统时，应侧重于提升计算能力而非复杂的规则设计。作者通过客户支持Agent的案例，对比了基于规则、有限计算Agent和横向扩展Agent三种方法，强调了RL Agent通过大量计算资源进行探索学习的优势。文章认为，AI工程师应专注于设计能有效利用计算资源的系统，而非过度优化算法。最终，计算能力将胜过精巧的工程设计，成为AI领域竞争的关键。

“苦涩的教训”：重新思考我们构建 AI 系统的方式

2025年3月20日

AI 进步的竞赛

2019年，Richard Sutton 写了他那篇具有开创性的文章，题为“The Bitter Lesson”（苦涩的教训）。简单来说，这篇文章的结论是，随着更高计算能力而变得更好的系统，会胜过那些没有利用更高计算能力的系统。或者更具体地说，在 AI 领域：原始计算能力始终胜过复杂的人工设计的解决方案。我曾经认为，巧妙的编排和复杂的规则是构建更好的 AI 系统的关键。这是一种典型的软件开发人员的心态。您构建一个系统，寻找极端情况，覆盖它们，然后就一切顺利了。哎，我错了。

把它想象成马拉松训练。你可以花几个月的时间来完善你的跑步姿势并购买最新的装备，但没有什么比得上跑步里程的积累。在 AI 领域，这些里程就是计算周期。

大自然的蓝图

最近，当我照料我的小花园时，我突然意识到——这与这个原则有一个完美的类比。我的植物不需要详细的指令来生长。只要有基本要素（水、阳光和养分），它们就会自己搞定剩下的事情。这正是有效的 AI 系统的工作方式。

当我们过度设计 AI 解决方案时，我们实际上是在试图微观管理那棵植物，告诉它如何生长每一片叶子。这不仅效率低下，而且往往会导致脆弱的系统，无法适应新的情况。

三种方法的对比

如今，AI Agent 最常见的企业用例之一是客户支持。让我分享一个我在构建客户服务自动化系统时遇到的真实场景：

基于规则的方法：最初，每个人都构建了一个包含数百条规则的广泛决策树，以处理客户的查询。它适用于常见情况，但在稍微变化的情况下就会崩溃。维护成了一场噩梦。
有限计算能力的Agent：接下来，随着 ChatGPT 的出现，出现了具有适度计算资源的 AI 驱动的客户Agent。你可以根据你在历史数据或 SOP 指南中看到的模式来编写提示词。在足够简单的问题上效果很好，但在复杂查询上挣扎，需要不断的人工监督。

许多 AI Agent 都在这个阶段。一条路径是进一步约束它，进行分支，引入不同的框架和护栏，以便Agent坚持目标。无意中，计算能力以某种方式被固定了。或者你可以尝试：

横向扩展解决方案：然后我们尝试了一些不同的东西——如果我们投入更多的计算能力会怎样？不仅仅是更大的 GPU，而是从根本上重新思考我们如何使用 AI。我们让Agent并行生成多个响应，同时运行多个推理路径，并选择最佳结果。每次客户互动都可能产生数十个 AI 调用，探索不同的方法。该系统会生成多个潜在的响应，评估它们，甚至模拟对话的展开方式。当然，这在计算上是昂贵的——但效果出奇的好。该系统开始处理我们甚至没有想到的极端情况，更重要的是，它发现了从自由探索多个路径中自然产生的交互模式。

这引出了：

RL 革命

在 2025 年，这种模式随着Reinforcement Learning（RL） Agent 的出现变得更加明显。虽然许多公司专注于构建通用模型周围的包装器，本质上是约束模型遵循特定的工作流路径，但真正的突破将来自投资于训练后 RL 计算的公司。这些 RL 增强的模型不仅仅是遵循预定义的模式；它们正在发现全新的解决问题的方法。以 OpenAI 的 Deep Research 或 Claude 的计算机使用能力为例——它们证明了投资于计算密集型的训练后过程，比复杂的编排层产生更好的结果。并不是说包装器是错误的；它们只是知道一种解决问题的方式。 RL Agent凭借其探索的自由和大量的计算资源，找到了我们甚至没有考虑过的更好的方法。

RL Agent 的美妙之处在于它们学习的自然方式。想象一下教某人骑自行车——你不会给他们一本 50 页的关于自行车物理学的说明书。相反，他们尝试，摔倒，调整，最终掌握它。 RL Agent 的工作方式类似，但规模更大。他们尝试数千种方法来解决问题，并收到关于哪些方法有效和哪些方法无效的反馈。每次成功都会加强某些神经通路，每次失败都有助于避免死胡同。

例如，在客户服务中，RL Agent 可能会发现，有时在对话的早期提出一个澄清问题，即使看起来很明显，也会导致更好的解决率。这不是我们通常会编程到包装器中的东西，但Agent通过广泛的试验和错误发现了这种模式。关键是要有足够的计算能力来运行这些实验并从中学习。

这种方法的强大之处在于Agent不受我们先入为主的观念的限制。虽然包装器解决方案本质上是对我们当前最佳实践的编纂，但 RL Agent 可以发现全新的最佳实践。他们可能会发现，将看似无关的方法结合起来比我们逻辑的、循序渐进的解决方案效果更好。这就是实际行动中的“苦涩的教训”——如果有足够的计算能力，通过探索进行学习每次都胜过手工制作的规则。

实际上，你会看到这种情况发生在 Claude code 和 Cursor 之间——即将到来的巨大竞争。目前，用户表示 Cursor 与 Claude Sonnet 3.7 配合不好，但与 Sonnet 3.5 配合完美。另一方面，人们抱怨 Claude code（在底层使用 Sonnet 3.7）消耗了大量的token。但是，它的效果非常好。据报道，Cursor 将以基于使用情况的定价作为版本发布，这将更多地利用 3.7 的Agent行为[1]。我们将在更多领域看到这一点，尤其是在代码之外，Agent可以考虑多种方法，而人类已经编纂了单一的工作流。

这对 AI 工程师意味着什么

这种洞察力从根本上改变了我们应该如何设计 AI 系统：

从小处开始，大规模扩展：从最简单的学习架构开始，它可以捕捉您问题的本质。然后用计算能力来扩展它，而不是增加复杂性。
为扩展而设计：构建能够有效利用额外计算能力的系统。这意味着：
- 可并行化的架构
- 能够随着更多数据和计算能力增长的灵活学习框架
- 能够处理分布式处理的基础设施
避免过早优化：在您最大限度地发挥计算潜力之前，不要花费数周时间来优化算法。精巧的工程设计的回报通常不及简单地添加更多计算资源。

真正的“所以呢”

其影响是深刻的，对我们工程师来说也有点不舒服：

投资策略：组织应该更多地投资于计算基础设施，而不是复杂的算法开发。
竞争优势：AI 领域的赢家不会是那些拥有最聪明算法的人，而是那些能够有效利用最多计算能力的人。
职业重点：作为 AI 工程师，我们的价值不在于设计完美的算法，而在于构建能够有效利用大量计算资源的系统。这是构建软件的心智模式的根本转变。

展望未来

这个教训似乎削弱了 AI 工程师的作用，但实际上提升了它。我们的工作是：

设计能够有效利用不断增长的计算资源的系统
构建可扩展的强大学习环境
创建可以增长而无需进行根本性重新设计的架构

未来属于那些能够通过计算能力学习和适应的系统构建者，而不是那些试图将人类知识编码成僵化规则的人。

记住：在精巧的工程设计和原始计算能力之间的竞赛中，计算能力获胜。我们的角色是建造赛道，而不是设计赛跑者的每一个动作。

我的意思是来源是他们的社区经理。所以，不完全是据报道。在这个帖子中，他们称之为更多同步与更多委托工作，但实际上，这是约束与计算之间的斗争。这篇文章几乎承认了这一点。在这一点上，他们已经发布了一个版本，其中每个 Sonnet 3.7 Max 调用花费大约 0.05 美元。 ↩

Ankit Maloo ankit@clioapp.ai 欢迎来到我的个人网站。还在熟悉这里，所以有些东西可能看起来不合适。