模型即产品:AI 发展的新趋势
模型即产品:AI 发展的新趋势
过去几年,人们对 AI 发展的下一个阶段进行了诸多猜测,例如 Agent、推理器、真正的多模态等。我认为现在可以明确地说:模型即产品。
当前研究和市场发展中的所有因素都朝着这个方向发展。
- 通用模型扩展停滞。 这正是 GPT-4.5 发布背后的信息:能力呈线性增长,而计算成本呈几何曲线增长。 即使在过去两年中训练和基础设施的效率都得到了提高,OpenAI 也无法以可承受的价格部署这个巨大的模型。
- 有倾向性的训练效果远超预期。 强化学习和推理的结合意味着模型突然开始学习任务。 这不是机器学习,也不是基础模型,而是一种秘密的第三种东西。 即使是很小的模型,在数学方面也突然变得非常出色。 编码模型不再只是生成代码,而是可以自己管理整个代码库。 即使只有非常差的上下文信息以及没有专门的训练,Claude 也能玩 Pokemon。
- 推理成本自由落体。 DeepSeek 最近的优化意味着所有可用的 GPU 都可以满足地球上所有人每天 1 万个 token 的需求。 不可能达到这种水平的需求。 对于模型提供商来说,出售 token 的经济模式不再奏效:他们必须向价值链的上游移动。
这是一个令人不安的方向。 所有投资者都在押注应用层。 在 AI 发展的下一阶段,应用层很可能最先被自动化和颠覆。
未来模型的形态
在过去的几周里,我们看到了这种新一代模型作为产品的两个主要例子:OpenAI 的 DeepResearch 和 Claude Sonnet 3.7。
我读到很多关于 DeepResearch 的误解,而开放和封闭克隆的倍增并没有帮助解决这些误解。 OpenAI 没有在 O3 之上构建包装器。 他们训练了一个全新的模型,能够在内部执行搜索,而无需任何外部调用、提示或编排:
该模型学习了核心浏览能力(搜索、点击、滚动、解释文件)……以及如何推理以综合大量网站,从而通过强化学习在这些浏览任务上找到特定信息或编写全面的报告。
DeepResearch 不是标准的 LLM,也不是标准的聊天机器人。 这是一种新型的研究语言模型,专门设计用于端到端地执行搜索任务。 这种差异对于认真使用它的每个人来说都是显而易见的:该模型生成具有一致结构和底层源分析过程的冗长报告。 相比之下,正如 Hanchung Lee 强调的那样,包括 Perplexity 和 Google 变体在内的所有其他 DeepSearch,都只是你通常的模型,带有一些调整:
Google 的 Gemini 和 Perplexity 的聊天助手也提供“Deep Research”功能,但两者都没有发布任何关于他们如何优化模型或系统来完成任务的文献,也没有发布任何实质性的定量评估……我们将假设所做的微调工作并不重要。
Anthropic 一直在阐明他们当前的愿景。 去年 12 月,他们对 Agent 模型提出了一个有争议但(在我看来)正确的定义。 与 DeepSearch 类似,Agent 必须在内部执行目标任务:它们“动态地指导自己的流程和工具使用,保持对如何完成任务的控制”。
大多数 Agent 初创公司目前构建的不是 Agent,而是工作流,即“通过预定义的代码路径协调 LLM 和工具的系统”。 工作流可能仍然会带来一些价值,尤其是在垂直适应方面。 然而,对于目前在大型实验室工作的人来说,显而易见的是,自主系统的所有重大进展都将首先通过重新设计模型来实现。
随着 Claude 3.7 的发布,我们对此有了一个非常具体的演示,Claude 3.7 主要针对复杂的代码用例进行训练。 像 Devin 这样的所有工作流适配在 SWE 基准测试中都得到了显着提升。
为了给出一个规模较小的例子:在 Pleias,我们目前正在努力实现 RAG 的自动化。 当前的 RAG 系统是许多相互关联但脆弱的工作流:路由、分块、重新排序、查询解释、查询扩展、源上下文化、搜索工程。 随着训练技术堆栈的发展,有可能将所有这些流程捆绑到两个独立的但相互关联的模型中,一个用于数据准备,另一个用于搜索/检索/报告生成。 这需要精心设计的合成管道和全新的强化学习奖励函数。 实际的训练,实际的研究。
所有这一切在实践中意味着什么:转移复杂性。 训练预测了广泛的行动和边缘情况,因此部署变得更加简单。 但在这个过程中,大部分价值现在由模型训练者创造,并且最终可能会被他们捕获。 简而言之,Claude 的目标是颠覆和取代当前的工作流,例如来自 llama index 的这个基本“Agent”系统:
用这个代替:
训练或被训练
重申一下:大型实验室并没有带着隐藏的议程前进。 虽然他们有时可能不透明,但他们将其全部公开:他们将捆绑,他们将进入应用层,他们将尝试在那里捕获大部分价值。 而商业后果非常清楚。 Databricks 的 Gen AI 副总裁 Naveen Rao 对此表达得很好:
所有封闭的 AI 模型提供商将在未来 2-3 年内停止销售 API。 只有开放模型才能通过 API 获得……封闭模型提供商正在尝试构建非商品功能,他们需要出色的 UI 来交付这些功能。 它不再仅仅是一个模型,而是一个带有 UI 的应用程序,用于某个目的。
所以现在发生的事情只是很多否认。 模型提供商和包装器之间的蜜月期已经结束。 事情可能会朝两个方向发展:
- Claude Code 和 DeepSearch 是这方面早期的技术和产品实验。 您会注意到 DeepSearch 无法通过 API 获得,仅用于为高级订阅创造价值。 Claude Code 是一个极简的终端集成。 奇怪的是,虽然 Claude 3.7 在 Claude Code 中运行良好,但 Cursor 却在努力应对它,我已经看到一些高端用户因此取消了他们的订阅。 真正的 LLM Agent 不关心预先存在的工作流:它们会取代它。
- 最引人注目的包装器现在正在争先恐后地成为混合 AI 训练公司。 他们确实有一些训练能力,尽管宣传很少。 Cursor 的主要资产之一是他们的小型自动完成模型。 WindSurf 有他们内部的廉价代码模型 Codium。 Perplexity 一直依赖于家庭分类器进行路由,最近转向训练他们自己的 DeepSeek 变体用于搜索目的。
- 对于较小的包装器,不会发生太大变化,除非如果大型实验室完全放弃这个市场,可能会更加依赖不可知的推理提供商。 我也希望看到更多地关注 UI,UI 仍然被严重低估,因为即使是更通用的模型也可能会捆绑常见的部署任务,尤其是对于 RAG。
简而言之,对于大多数成功的包装器来说,困境很简单:训练或被训练。 他们现在所做的事情既是大型实验室的免费市场研究,甚至是免费的数据设计和生成,因为所有输出最终都是通过模型提供商生成的。
之后会发生什么,每个人都在猜测。 成功的包装器确实具有了解其垂直领域的优势,并积累了大量宝贵的用户反馈。 然而,以我的经验,从模型层到应用层更容易,而不是从头开始构建全新的训练能力。 包装器的投资者可能也没有提供帮助。 从我听到的情况来看,人们对训练存在如此消极的两极分化,以至于他们几乎不得不隐藏什么将成为他们最关键的价值:cursor small 和 codium 目前都没有得到适当的文档记录。
强化学习没有被定价
这让我想到了实际的痛苦部分:目前所有 AI 投资都是相关的。 基金在以下假设下运作:
- 真正的价值完全在于独立于模型层的应用层,该应用层最适合颠覆现有市场。
- 模型提供商将仅以越来越低的价格出售 token,从而使包装器更具盈利能力。
- 封闭模型包装将满足所有现有需求,即使在受监管的行业中,这些行业对外部依赖存在长期担忧。
- 构建任何训练能力都只是浪费时间。 这不仅包括预训练,还包括所有形式的训练。
恐怕这越来越像是一项冒险的赌注,并且是未能准确评估最新技术发展(尤其是在 RL 方面)的实际市场失败。 在当前的经济生态系统中,风险基金旨在寻找不相关的投资。 它们不会击败标准普尔 500 指数,但这并不是大型机构投资者所寻求的:他们希望捆绑风险,确保在糟糕的一年中至少有一些事情会奏效。 模型训练就像一个教科书般的完美例子:在大多数西方经济体正走向衰退的情况下,具有很大的颠覆潜力。 然而,模型训练者无法筹集资金,或者至少不能以通常的方式筹集资金。 Prime Intellect 是少数几家新的西方 ai 训练公司之一,它们具有成为前沿实验室的明确潜力。 然而,尽管取得了包括训练第一个去中心化 LLM 在内的成就,但他们很难筹集到超过您通常的包装器的资金。
除此之外,除了大型实验室之外,当前的训练生态系统非常小。 您可以用手指数出所有这些公司:Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina、HuggingFace 预训练团队(实际上很小)……以及一些更多的学术参与者(Allen AI、Eleuther……),他们构建并支持当前大部分开放的训练基础设施。 在欧洲,我知道至少有 7-8 个 LLM 项目将集成 Common Corpus 以及我们在 Pleias 开发的一些预训练工具——其余的将是 fineweb,以及可能来自 Nous 或 Arcee 的训练后指令集。
当前的融资环境存在一些严重的错误。 即使 OpenAI 现在也意识到了这一点。 最近,人们对当前硅谷创业环境中缺乏“垂直 RL”感到有些不满。 我相信这条信息直接来自 Sam Altman,并且可能会导致下一批 YC 做出一些调整,但这指向了一个更大的转变:很快大型实验室选择的合作伙伴将不是 API 客户,而是参与早期训练阶段的相关承包商。
如果模型是产品,您不一定能单独构建它。 搜索和代码是容易实现的低垂果实:两年的主要用例,市场几乎成熟,您可以在几个月内交付一个新的游标。 现在,未来许多利润丰厚的 AI 用例尚未处于这种高级发展阶段——通常,想想所有这些仍然统治着世界经济的大部分规则系统……具有交叉专业知识和高度专注的小型专门团队可能最适合解决这个问题——最终一旦完成初步工作,可能会成为潜在的收购对象。 我们可以在 UI 方面看到相同的流程。 一些首选合作伙伴,获得对封闭专用模型的独家 API 访问权限,前提是他们走上业务收购的道路。
到目前为止,我还没有提到 DeepSeek,也没有提到中国实验室。 仅仅因为 DeepSeek 已经更进一步:不是将模型作为产品,而是作为通用基础设施层。 像 OpenAI 和 Anthropic 一样,Lian Wenfeng 公开了他的计划:
我们认为,当前阶段是技术创新的爆发,而不是应用的爆发……如果形成完整的上下游产业生态系统,那么我们就不需要自己开发应用程序。 当然,如果需要,我们也可以开发应用程序,但研究和技术创新将永远是我们的首要任务。
在这个阶段,仅从事应用程序开发就像“用上次战争的将军打下一次战争”。 我担心我们已经到了西方很多人甚至没有意识到上次战争已经结束的地步。