“苦涩的教训” 适用于 AI Agent
“苦涩的教训”:重新思考我们构建 AI 系统的方式
2025年3月20日
AI 进步的竞赛
2019年,Richard Sutton 写了他那篇具有开创性的文章,题为“The Bitter Lesson”(苦涩的教训)。 简单来说,这篇文章的结论是,随着更高计算能力而变得更好的系统,会胜过那些没有利用更高计算能力的系统。 或者更具体地说,在 AI 领域:原始计算能力始终胜过复杂的人工设计的解决方案。 我曾经认为,巧妙的编排和复杂的规则是构建更好的 AI 系统的关键。 这是一种典型的软件开发人员的心态。 您构建一个系统,寻找极端情况,覆盖它们,然后就一切顺利了。 哎,我错了。
把它想象成马拉松训练。 你可以花几个月的时间来完善你的跑步姿势并购买最新的装备,但没有什么比得上跑步里程的积累。 在 AI 领域,这些里程就是计算周期。
大自然的蓝图
最近,当我照料我的小花园时,我突然意识到——这与这个原则有一个完美的类比。 我的植物不需要详细的指令来生长。 只要有基本要素(水、阳光和养分),它们就会自己搞定剩下的事情。 这正是有效的 AI 系统的工作方式。
当我们过度设计 AI 解决方案时,我们实际上是在试图微观管理那棵植物,告诉它如何生长每一片叶子。 这不仅效率低下,而且往往会导致脆弱的系统,无法适应新的情况。
三种方法的对比
如今,AI Agent 最常见的企业用例之一是客户支持。 让我分享一个我在构建客户服务自动化系统时遇到的真实场景:
- 基于规则的方法:最初,每个人都构建了一个包含数百条规则的广泛决策树,以处理客户的查询。 它适用于常见情况,但在稍微变化的情况下就会崩溃。 维护成了一场噩梦。
- 有限计算能力的Agent:接下来,随着 ChatGPT 的出现,出现了具有适度计算资源的 AI 驱动的客户Agent。 你可以根据你在历史数据或 SOP 指南中看到的模式来编写提示词。 在足够简单的问题上效果很好,但在复杂查询上挣扎,需要不断的人工监督。
许多 AI Agent 都在这个阶段。 一条路径是进一步约束它,进行分支,引入不同的框架和护栏,以便Agent坚持目标。 无意中,计算能力以某种方式被固定了。 或者你可以尝试:
- 横向扩展解决方案:然后我们尝试了一些不同的东西——如果我们投入更多的计算能力会怎样? 不仅仅是更大的 GPU,而是从根本上重新思考我们如何使用 AI。 我们让Agent并行生成多个响应,同时运行多个推理路径,并选择最佳结果。 每次客户互动都可能产生数十个 AI 调用,探索不同的方法。 该系统会生成多个潜在的响应,评估它们,甚至模拟对话的展开方式。 当然,这在计算上是昂贵的——但效果出奇的好。 该系统开始处理我们甚至没有想到的极端情况,更重要的是,它发现了从自由探索多个路径中自然产生的交互模式。
这引出了:
RL 革命
在 2025 年,这种模式随着Reinforcement Learning(RL) Agent 的出现变得更加明显。 虽然许多公司专注于构建通用模型周围的包装器,本质上是约束模型遵循特定的工作流路径,但真正的突破将来自投资于训练后 RL 计算的公司。 这些 RL 增强的模型不仅仅是遵循预定义的模式; 它们正在发现全新的解决问题的方法。 以 OpenAI 的 Deep Research 或 Claude 的计算机使用能力为例——它们证明了投资于计算密集型的训练后过程,比复杂的编排层产生更好的结果。 并不是说包装器是错误的; 它们只是知道一种解决问题的方式。 RL Agent凭借其探索的自由和大量的计算资源,找到了我们甚至没有考虑过的更好的方法。
RL Agent 的美妙之处在于它们学习的自然方式。 想象一下教某人骑自行车——你不会给他们一本 50 页的关于自行车物理学的说明书。 相反,他们尝试,摔倒,调整,最终掌握它。 RL Agent 的工作方式类似,但规模更大。 他们尝试数千种方法来解决问题,并收到关于哪些方法有效和哪些方法无效的反馈。 每次成功都会加强某些神经通路,每次失败都有助于避免死胡同。
例如,在客户服务中,RL Agent 可能会发现,有时在对话的早期提出一个澄清问题,即使看起来很明显,也会导致更好的解决率。 这不是我们通常会编程到包装器中的东西,但Agent通过广泛的试验和错误发现了这种模式。 关键是要有足够的计算能力来运行这些实验并从中学习。
这种方法的强大之处在于Agent不受我们先入为主的观念的限制。 虽然包装器解决方案本质上是对我们当前最佳实践的编纂,但 RL Agent 可以发现全新的最佳实践。 他们可能会发现,将看似无关的方法结合起来比我们逻辑的、循序渐进的解决方案效果更好。 这就是实际行动中的“苦涩的教训”——如果有足够的计算能力,通过探索进行学习每次都胜过手工制作的规则。
实际上,你会看到这种情况发生在 Claude code 和 Cursor 之间——即将到来的巨大竞争。 目前,用户表示 Cursor 与 Claude Sonnet 3.7 配合不好,但与 Sonnet 3.5 配合完美。 另一方面,人们抱怨 Claude code(在底层使用 Sonnet 3.7)消耗了大量的token。 但是,它的效果非常好。 据报道,Cursor 将以基于使用情况的定价作为版本发布,这将更多地利用 3.7 的Agent行为[1]。 我们将在更多领域看到这一点,尤其是在代码之外,Agent可以考虑多种方法,而人类已经编纂了单一的工作流。
这对 AI 工程师意味着什么
这种洞察力从根本上改变了我们应该如何设计 AI 系统:
- 从小处开始,大规模扩展:从最简单的学习架构开始,它可以捕捉您问题的本质。 然后用计算能力来扩展它,而不是增加复杂性。
- 为扩展而设计:构建能够有效利用额外计算能力的系统。 这意味着:
- 可并行化的架构
- 能够随着更多数据和计算能力增长的灵活学习框架
- 能够处理分布式处理的基础设施
- 避免过早优化:在您最大限度地发挥计算潜力之前,不要花费数周时间来优化算法。 精巧的工程设计的回报通常不及简单地添加更多计算资源。
真正的“所以呢”
其影响是深刻的,对我们工程师来说也有点不舒服:
- 投资策略:组织应该更多地投资于计算基础设施,而不是复杂的算法开发。
- 竞争优势:AI 领域的赢家不会是那些拥有最聪明算法的人,而是那些能够有效利用最多计算能力的人。
- 职业重点:作为 AI 工程师,我们的价值不在于设计完美的算法,而在于构建能够有效利用大量计算资源的系统。 这是构建软件的心智模式的根本转变。
展望未来
这个教训似乎削弱了 AI 工程师的作用,但实际上提升了它。 我们的工作是:
- 设计能够有效利用不断增长的计算资源的系统
- 构建可扩展的强大学习环境
- 创建可以增长而无需进行根本性重新设计的架构
未来属于那些能够通过计算能力学习和适应的系统构建者,而不是那些试图将人类知识编码成僵化规则的人。
记住:在精巧的工程设计和原始计算能力之间的竞赛中,计算能力获胜。 我们的角色是建造赛道,而不是设计赛跑者的每一个动作。
- 我的意思是来源是他们的社区经理。 所以,不完全是据报道。 在这个帖子中,他们称之为更多同步与更多委托工作,但实际上,这是约束与计算之间的斗争。 这篇文章几乎承认了这一点。 在这一点上,他们已经发布了一个版本,其中每个 Sonnet 3.7 Max 调用花费大约 0.05 美元。 ↩
Ankit Maloo ankit@clioapp.ai 欢迎来到我的个人网站。 还在熟悉这里,所以有些东西可能看起来不合适。