AI先驱 Yann LeCun 认为当今的 LLM 几乎过时
Yann LeCun, Pioneer of AI, Thinks Today's LLM's Are Nearly Obsolete
Published Apr 02, 2025 at 2:01 PM EDT Updated Apr 02, 2025 at 2:15 PM EDT
By Gabriel Snyder
Editorial Director, Newsweek Nexus
Newsweek Is A Trust Project Member
news article
Based on facts, either observed and verified firsthand by the reporter, or reported and verified from knowledgeable sources.
如果你问 Yann LeCun——Meta 的首席 AI 科学家、图灵奖得主、NYU 数据科学家,也是人工智能的先驱之一——关于大型语言模型 (LLM) 的未来,比如 OpenAI's ChatGPT, Google's Gemini, Meta's Llama 和 Anthropic's Claude,他的回答可能会让你吃惊:他认为 LLM 将在五年内基本过时。
“如果我和我的同事在 [Facebook AI Research] 和 NYU 所走的道路能够奏效,在三到五年内,我们将拥有一个更好的范式,用于构建能够推理和规划的系统,”LeCun 在 Newsweek 的 AI Impact 访谈系列中与 Marcus Weldon 的最新一期中解释道,他描述了他的团队最近在其 Joint Embedding Predictive Architecture (JEPA) 上的工作。他希望这种方法能够使目前基于 LLM 的 AI 方法过时,因为这些新系统将包含对世界的真实表征,并且,他说,能够“在你可以给它们目标的情况下进行控制,而且通过构造,它们唯一能做的就是完成这些目标”。
他的信念是如此强烈,以至于在去年的一次会议上,他建议 年轻的开发者,“不要研究 LLM。[这些模型] 掌握在大型公司手中,你无法带来任何东西。你应该研究下一代 AI 系统,以消除 LLM 的局限性。”
这种悖论是引人注目的:当今 AI 繁荣背后的主要架构师之一,同时也是最著名的怀疑论者之一。当各公司竞相部署日益复杂的对话代理,投资者向大型语言模型初创企业和为其提供动力的数据中心投入数十亿美元时,LeCun 仍然对许多人认为的人工智能前沿技术不以为然,尽管他的团队生产了当今使用的领先的基础模型之一:Llama。
对于 LeCun 来说,今天的 AI 模型——即使是那些带有他的知识印记的模型——也是相对专业的工具,在一个简单、离散的空间(语言)中运行,同时缺乏对人类和动物轻松驾驭的物理世界的任何有意义的理解。LeCun 的警告与 Rodney Brooks 关于他对 AI 的“魔法思维”的警告相一致,正如 Brooks 在与 Newsweek 的早些时候的对话中解释的那样,当 AI 系统在有限的领域表现良好时,我们倾向于将它们拟人化,错误地假设它们具有更广泛的能力。
我们有充分的理由听取 LeCun 的明确呼吁:LeCun 花了几十年时间开创了支撑当今 AI 繁荣的神经网络技术,并且是“深度学习的三剑客”之一,与 Geoffrey Hinton 和 Yoshua Bengio 一起,因其对该领域的贡献而在 2018 年共同获得图灵奖。
Yann LeCun spoke with Newsweek as part of its AI Impact Interview series Yann LeCun spoke with Newsweek as part of its AI Impact Interview series Photo-illustration by Newsweek/Getty
LeCun 于 1960 年出生于法国,从小就对人工智能着迷。他 9 岁时在巴黎第一次看到了 Stanley Kubrick 的 2001: A Space Odyssey,这段经历塑造了他的职业轨迹。“它包含了所有我小时候着迷的主题,”LeCun 回忆道。“太空旅行、AI、人类智能的出现。”
给年轻的 LeCun 留下最深刻印象的是,智能可以是自组织的——复杂的行为可能源于简单元素之间的相互作用。即使在他遇到学术界的抵制时,这一概念也将成为贯穿他职业生涯的指导原则。
当 LeCun 在 1980 年代开始他的工作时,神经网络在计算机科学领域已经完全失宠。Marvin Minsky 和 Seymour Papert 于 1969 年出版的一本书有效地扼杀了研究兴趣,该书突出了简单的“感知器”(1950 年代首次引入的最早的神经网络之一)的局限性,并且 AI 领域已果断地转向基于符号和规则的系统。
“你当时不能提及 神经网络 这个词。那是感知器死亡 15 年后,它仍然被认为是工程学中的禁忌,而不仅仅是计算机科学,”LeCun 解释道。“但是这个领域被那些不在乎这段历史,或者不知道这段历史的人复兴了,他们将统计物理学和理论神经科学中的一些方法与神经网络联系起来,现在这是获得诺贝尔奖的工作。”
在 1980 年代中期在 Université Pierre et Marie Curie 攻读博士学位期间,LeCun 通过开发一种早期形式的现在著名的反向传播算法,为深度学习领域做出了他的第一个重大贡献。所谓的“反向传播”是一种数学技术,它允许神经网络基于其输出中检测到的错误进行学习,然后将这些错误“反向传播”通过神经网络,以调整内部权重,从而实现更高的准确性输出。这种方法后来成为几乎所有现代神经网络训练的基础,形成了从语音和图像识别系统到聊天机器人和自动驾驶系统的学习主干。
在 1987 年获得博士学位后,LeCun 前往多伦多大学,在 Geoffrey Hinton 的领导下担任博士后研究员。一年后,他加入了 Bell Labs,在那里他做出了也许是他最具变革意义的贡献:卷积神经网络 (CNN) 的开发。受哺乳动物视觉皮层结构的启发,CNN 使用专门的层来扫描图像以检测特征——如边缘、纹理和形状——而不管它们出现在视野中的什么位置。这种架构通过使机器能够识别模式,尽管位置、比例或方向有所不同,从而极大地改进了计算机视觉。
他在 Bell Labs 的创新带来了实际应用,这些应用悄然地彻底改变了日常系统。LeCun 开发的手写识别技术由美国邮政总局和银行部署,在 1990 年代后期和 2000 年代初期读取了美国所有支票的 10% 以上。今天,卷积网络仍然构成现代计算机视觉的基础,从而实现了从面部识别和医学成像分析到自动驾驶汽车感知和增强现实的所有功能。
在 AT&T Labs 和 NEC Research Institute 短暂工作后,LeCun 于 2003 年加入纽约大学,他仍然在那里担任 Silver 教授。2013 年,Mark Zuckerberg 招募他成为 Facebook's AI Research (FAIR) 部门的第一任主管,他已将该职位演变为目前在 Meta 担任首席 AI 科学家的职位。
回到 LLM 局限性的话题,LeCun 解释说,“LLM 一个接一个地产生 token。它通过固定量的计算来生成一个 token,这显然是系统 1——它是反应性的,对吧?没有推理,”他引用了 Daniel Kahneman 的有影响力的框架,该框架区分了人类大脑的快速、直观的思考方法(系统 1)和较慢、更深思熟虑的推理方法(系统 2)。
当您考虑所谓的 Moravec 悖论时,这种方法的局限性就变得很明显了。Moravec 悖论是计算机科学家和机器人专家 Hans Moravec 在 1980 年代后期提出的一个观察结果,即教授 AI 系统下棋或通过标准化考试等高阶技能,比教授感知和运动等看似基本的人类能力相对容易。Moravec 认为,原因是人类身体如何导航世界所获得的技能是数十亿年进化的产物,并且已经高度发展,可以由人类自动化,而基于新皮层的推理技能出现得较晚,需要更多的有意识的认知努力才能掌握。然而,机器的情况恰恰相反。简而言之,我们设计机器来帮助我们弥补我们缺乏能力的地方,例如体力或计算能力。
LLM 的奇怪悖论是,它们已经掌握了语言的高阶技能,而没有学习任何基本的人类能力。“我们有这些语言系统可以顺利通过律师资格考试,可以解方程、计算积分,但我们的家用机器人在哪里?” LeCun 问道。“物理世界中像猫一样好的机器人在哪里?我们不认为猫能完成的任务很聪明,但事实上,它们确实很聪明。”
这种差距的存在是因为与混乱、连续的现实世界相比,语言尽管具有复杂性,但却在一个相对受限的领域中运行。“事实证明,语言相对简单,因为它具有强大的统计特性,”LeCun 说。它是一个低维度、离散的空间,“基本上是我们思想的序列化版本”。
最令人惊讶的是,LeCun 指出,人类能够处理的数据量甚至比我们最需要数据的先进 AI 系统还要多。“今天的一个大型 LLM 在大约 10 的 14 次方字节的训练数据上进行训练。我们需要花费 40 万年的时间才能阅读完它。” 这听起来很多,但他随后指出,人类能够摄取更大数量的视觉数据。
LeCun 建议,考虑一个已经醒了 16,000 个小时的 4 岁儿童。“视神经的带宽约为每秒 1 兆字节,上下浮动。将其乘以 16,000 小时,大约在 4 年内达到 10 的 14 次方,而不是 40 万。” 这引出了一个关键的推论:“这清楚地告诉您,我们永远无法通过仅在文本上进行训练来达到人类水平的智能。永远不会发生,”LeCun 总结道。
当被要求定义智能时,LeCun 的描述非常精确:“您可以将智能视为两三件事。一种是技能的集合,但更重要的是,一种快速获得新技能的能力,可能不需要任何学习。” 他用一个日常的例子来说明这一点:“你问你 10 岁的孩子,'你能收拾餐桌吗?' 即使是一个从未这样做过,或者可能只观察过几次的 10 岁孩子,也对这个世界有足够的背景知识,能够第一次完成这项任务而无需训练。”
这种将现有知识应用于新情况的能力代表了当今 AI 系统与人类认知之间的一个巨大差距。“一个 17 岁的孩子可以在大约 20 小时的练习中学会开车,甚至更少,而且基本上不会造成任何事故,”LeCun 沉思道。“我们有数百万小时的人们开车的训练数据,但我们仍然没有自动驾驶汽车。这意味着我们错过了一些非常非常重要的东西。”
与 Brooks 一样,他强调了具身认知和与物理世界互动的重要性,LeCun 认为智能与我们建模和预测物理现实的能力密切相关——这是当前语言模型根本无法做到的。这种观点与 David Eagleman 的描述 相呼应,他描述了大脑如何根据其“世界模型”不断运行模拟,并将预测与感官输入进行比较。
对于 LeCun 来说,区别在于我们的心理模型——关于世界如何运作的内部表征,这些表征使我们能够预测后果并相应地计划行动。人类通过从婴儿期开始观察和与物理世界互动来发展这些模型。大约 9 个月后,婴儿了解到不受支持的物体会掉落(重力);他们逐渐开始理解,即使物体超出视线(物体永久性),物体仍然存在。他观察到,这些模型是分层排列的,从关于直接物理交互的非常低级的预测,到实现长期计划的高级概念理解。
LeCun 提供了一个优雅的例子:“假设我们今天在纽约,并决定明天早上在巴黎。我们无法在肌肉控制方面计划我们的整个旅程——这将是一项完全棘手的任务。但是在很高的抽象层面上,我们可以说,'我需要去机场并赶上飞机。' 所以,现在我有一个目标。我如何去机场?我在纽约,所以我走到街上,叫了一辆出租车。好吧,我如何走到街上?好吧,我必须从椅子上站起来,乘坐电梯下楼,然后......”
这种分层计划依赖于 LLM 不具备的心理模型。虽然它们可以生成听起来合理的文本,但它们缺乏对物理现实的理解,并且无法以即使是非常年幼的孩子也能做到的方式来推理新情况。
因此,LeCun 没有继续扩大语言模型的道路,而是率先提出了一种替代方法,即联合嵌入预测架构 (JEPA),旨在基于视觉输入创建物理世界的表征。“你可以训练一个系统通过训练它来预测视频中将要发生的事情来理解世界如何运作,这个想法已经存在很久了,”LeCun 指出。“至少 20 年来,我一直在以某种形式研究这个问题。”
JEPA 背后的基本见解是,预测不应发生在原始感官输入的空间中,而应发生在抽象的表征空间中。当人类预测接下来会发生什么时,我们不会在脑海中生成未来的像素完美图像——我们而是考虑物体、它们的属性以及它们可能如何交互。
“如果你做了天真的事情,我做过,我的许多同事也尝试过,训练一个大型神经网络来预测视频中的接下来的几帧,它效果不佳。你会得到模糊的预测,因为系统无法准确地预测像素会发生什么变化,”LeCun 解释道。
但是最近的突破使另一种基于视频的方法成为可能。在 Meta 进行的一项名为 DINO World Model 的实验中,研究人员采用了一个预先训练的编码器,该编码器已经学会通过自监督学习从图像中提取特征,然后训练一个预测器来预测当采取某些动作时,这些特征将如何变化。
“然后你可以给它一个任务,即达到某个目标状态,并通过优化,计划一系列动作,以便你的模型预测你将达到该目标,”LeCun 说。这使系统能够计划新颖的行动序列以实现指定的目标——一种基本的推理和计划形式。
对于另一个名为 V-JEPA (Video-JEPA) 的最新模型,LeCun 的团队训练了一个系统来完成部分遮挡的视频。当显示物理上不可能发生的事情的视频时——例如物体自发改变形状或在应该可见时消失——系统的预测误差会急剧增加,表明它已经隐式地学习了基本的物理原理。
这种方法与语言模型的运作方式根本不同。这些系统不是以概率方式预测序列中的下一个 token,而是学习在多个抽象级别上表示世界,并预测其表征在不同条件下将如何演变。
LeCun 认为,语言模型在未来可能仍然存在,但它们将服务于更狭窄的目的:“LLM 的作用很小,基本上是将抽象思想转化为语言。” 他提出了一个神经学的平行关系:“在人脑中,这是由 Broca's area 完成的,它就在这里,”他说,指着他左太阳穴附近的一个小区域。“它只是在过去几十万年中才出现的。如果你失去 [功能] Broca's area,你可以思考,你只是无法表达你的想法。”
尽管他批评了当今的 AI 系统——“我们离达到人类水平的智能还差得很远。明天不会发生。”——LeCun 并不是一个技术悲观主义者。相反,他认为,“AI 将对社会产生类似于 15 世纪印刷机所产生的变革性影响。” 但在他的愿景中,这种影响将通过放大人类的智能来实现,而不是取代它。“人类工作的性质将在概念上和质量上发生变化,”他预测道。“我认为这与之前的技术革命所发生的情况不会有太大不同,在以前的技术革命中,体力被机器力量所取代,或者一些智力或办公室任务被计算机所取代。”
LeCun 与许多 AI 未来主义者(包括他的前导师和图灵奖共同获得者 Geoffrey Hinton)的不同之处在于他对生存风险的评估。当 Hinton 于 2023 年从 Google 退休时,他警告说,“我们很快就会得到比我们更聪明的东西,而这些东西可能会产生不良动机并控制局面,这存在严重的危险”,他补充说,“这不仅仅是一个科幻小说问题。这是一个严重的问题,可能很快就会到来。” 去年 12 月,Hinton 估计,目前的 AI 系统有 10% 到 20% 的可能性在 2030 年之前导致人类灭绝。
LeCun 强烈反对这种担忧。“这完全是错误的,”他坚持认为,“首先,我认为人们对纯粹的智能给予了太多的信任和权力。” 他简洁地补充道,“看看今天的政治局面,很明显,智力实际上并不是一个主要因素。往往不是我们当中最聪明的人成为领导者或首领。”
LeCun 的乐观情绪部分源于对 AI 系统实际上可以在物理世界中控制什么的务实评估。虽然电影场景经常描绘 AI 失控,指挥大量资源并控制关键基础设施,但 LeCun 指出,这种能力不仅需要智能,还需要 AI 系统不具备的物理控制和访问权限。他还认为 AI 系统很容易受到约束。“AI 系统的好处在于,你可以以这样一种方式设计它,使其无法逃脱其防护栏。人类可以违反法律,因为我们有自由意志。”
他还对智能和统治地位联系在一起的假设提出了异议,指出历史上许多最聪明的人——如 Albert Einstein 或 Richard Feynman——既不富有也不强大。他认为,仅仅将过多的权力归因于智能会忽略其他可能更危险的人类弱点:“我们人类喜欢认为智能就是一切,但一种病毒可以打倒我们,而它们并不是特别聪明。”
他设想了一个 AI 系统形成一种自我调节的生态系统的未来:“这将是一个机器互动社会,”他预测道。如果一个系统行为不端,他说,“你将拥有其他更聪明的 AI 系统来将其击倒。这将像我的智能 AI 警察对抗你的流氓 AI 一样。”
增强智能:对与 Yann LeCun 对话的反思
By Marcus Weldon, Newsweek AI 特约编辑兼 Bell Labs 名誉总裁
Yann LeCun 产生的 polymathematical 见解总是给我留下深刻的印象。 很少有人能对如此多样化的话题拥有有意义的知识和理解水平,并且毫不畏惧地表达自己的想法。对于一位技术精湛且创新的 AI 从业者来说,既不赞美也不贬低当前的技术,而是将它们置于适当的上下文中,这一点尤其令人耳目一新。 对我来说,有五个关键主题脱颖而出,我将在此处更深入地探讨它们:
- 生成式 AI 模型从根本上是有限的,因为它们无法表示表征我们世界几乎所有方面的高维连续空间
- 因此,AI 的未来不能仅仅是扩展这些固有缺陷的模型,而必须是构建包含我们世界的抽象表示的模型,这些模型可以被探测、可以预测和可以计划
- 人类智能以及由此类推的类人机器智能是分层的,由许多级别、类型和时间尺度组成,我们目前还远远无法表示这种丰富的功能和能力
- 智能并不是一切——它当然是关键的某种东西,但它不如有动机的物理、心理或生物力量强大。 因此,AI 本身并不是一种生存威胁。
- 未来将由一个“机器社会”组成,该社会既具有系统 1 能力又具有系统 2 能力,并增强人类能力。 这种社会将位于我们下方,形成一种新的人机社会等级,因为这些系统内置的防护栏限制了它们按照我们的意愿行事。
这些课程补充并放大了我之前与 Rodney Brooks 和 David Eagleman 的对话,从而形成了对我们 AI 丰富未来的清晰而一致的新兴图景。
在这个未来中,人类将转变为更多的管理角色,将 AI 系统用作工具而不是被它们取代。“每个人都将成为某种 CEO,或者至少是一个经理,”LeCun 建议道。“我们将看到人类在等级制度中更上一层楼。我们将在我们下方有一个级别,那就是这些 AI 系统。” 但关键的是,他澄清说,“它们可能比我们更聪明,但它们会按照我们的意愿行事。”
这种增强而非取代的愿景与 Brooks 和 Eagleman 的观点一致。正如 Eagleman 告诉 Newsweek 那样,“现在,一切都与副驾驶有关,我们正在走向一个未来,在这个未来中,将会有越来越多的自主系统来处理事情。”
为了使这个未来安全且公平地实现,LeCun 强烈主张 AI 技术的开源开发。“开源是必要的,”他认为,因为没有一个国家“在没有开源模型的情况下拥有 AI 主权,因为它们可以以此为基础并建立自己的主权。”
LeCun 回到了当今 AI 与他认为最终将取代它们的系统之间的根本区别。他说,当前的语言系统经过训练,“只是为了预测文本中的下一个单词”。为了让这些系统更擅长处理复杂的知识任务,“那么就会有一个越来越昂贵的微调阶段。因此,你训练它们来回答特定类型的问题,但你不会训练它们来发明他们以前从未遇到过的新问题的解决方案。”
他对比了两种编程方法:系统 1 方法是使用 AI 生成统计上合理的代码,然后反复测试,进行更改直到它可以工作。对于后一种方法,Le Cun 说,“它很昂贵,因为它是测试时计算。它是指数级的——成本高 n 倍,因为可能性的树变得很宽。” 相反,人类的系统 2 方法更线性,因为它由一个明确的目标组成,并且构建的代码是为了实现该目标,在经验丰富的程序员手中,更有可能基本上是正确的,只有少数几个 bug 需要修复。
消除当前 AI 系统与最佳解决方案之间这种指数级的效率差距,正是 LeCun 认为专注于世界模型和规划的方法最终将取代当今大型语言模型的原因,尽管它们在狭窄领域中具有令人印象深刻的能力。“我已经多次说过,如果在我退休时,我们拥有像猫一样聪明的系统,我会很高兴的,”LeCun 笑着说。“顺便说一句,退休即将到来,所以我的时间不多了!”