我被“AI for Science”的炒作忽悠了——这是我从中得到的教训
我被“AI for Science”的炒作忽悠了——这是我从中得到的教训
我在等离子体物理研究中使用了 AI,但结果并不如我预期。
Nick McGreivy 2025年5月19日
我很兴奋能发表这篇由Nick McGreivy撰写的客座文章,他是一位物理学家,去年在普林斯顿大学获得了博士学位。Nick 曾经乐观地认为 AI 可以加速物理学研究。但是,当他尝试将 AI 技术应用于实际的物理问题时,结果令人失望。
我之前曾写过关于普林斯顿大学 AI 安全学院的文章,该学院认为 AI 的影响可能与电力、集成电路和互联网等过去的通用技术类似。我认为 Nick 的这篇文章也属于同样的知识传统。
—Timothy B. Lee
2018 年,作为普林斯顿大学二年级的博士生,我研究等离子体物理学,我决定将我的研究重点转移到机器学习上。当时我还没有具体的科研项目,但我认为可以通过使用 AI 来加速物理研究,从而产生更大的影响。(坦率地说,我也是受到了 AI 领域高薪的吸引。)
我最终选择了研究 AI 先驱 Yann LeCun 后来 描述 为“非常热门的话题”:使用 AI 求解偏微分方程(PDEs)。但是,当我试图在我认为是令人印象深刻的结果之上构建时,我发现 AI 方法的性能比宣传的要差得多。
[作者 Nick McGreivy]
起初,我尝试将一种被广泛引用的 AI 方法称为 PINN 应用于一些相当简单的 PDEs,但发现它出乎意料地脆弱。后来,尽管有数十篇论文声称 AI 方法可以比标准数值方法更快地求解 PDEs——在某些情况下甚至 快一百万倍——但我发现这些比较大多是不公平的。当 我将 这些 AI 方法与最先进的数值方法放在同等基础上进行比较时,AI 无论多么狭隘的优势通常都会消失。
这段经历让我开始质疑 AI 是否真的准备好“加速”甚至“彻底改变”科学。我们真的要进入 DeepMind 称之为 的“AI 赋能科学发现的新黄金时代”了吗?或者说,AI 在科学领域的整体潜力被夸大了——就像在我的子领域一样?
许多其他人也发现了类似的问题。例如,在 2023 年,DeepMind 声称 发现了 220 万个晶体结构,代表了 “人类已知稳定材料的数量级扩展”。但是当 材料科学家分析这些化合物 时,他们发现它“ mostly junk”,并且“恭敬地”建议该论文“没有报告任何新材料”。
另外,普林斯顿大学的计算机科学家 Arvind Narayanan 和 Sayash Kapoor 编制了一份清单,其中包含 30 个领域的 648 篇论文,这些论文都存在一种称为 data leakage 的方法学错误。在每种情况下,data leakage 都会导致过于乐观的结果。他们认为,基于 AI 的科学正面临着一场“可重复性危机”。
然而,在过去十年中,AI 在科学研究中的应用 急剧上升。 当然,计算机科学领域受到的影响最大,但其他学科——物理学、化学、生物学、医学和社会科学——也看到了 AI 应用的迅速增加。在所有科学出版物中,AI 的使用率从 2015 年的 2% 增长到 2022 年的近 8%。虽然很难找到关于过去几年的数据,但我们有充分的理由认为 这种加速增长的趋势仍在继续。
[AI 驱动科学突破]
需要明确的是,AI 确实可以 推动科学突破。我担心的是它们的影响范围和频率。AI 真的展现出足够的潜力来证明人才、培训、时间和资金从现有研究方向向单一范式的巨大转移是合理的吗?
每个科学领域都在以不同的方式体验 AI,因此我们在做出概括时应谨慎。但是,我确信我的一些经验教训可以广泛应用于科学领域:
- 科学家们对 AI 的采用正在爆炸式增长,这与其说是 AI 有益于科学,不如说 是因为它有益于科学家自身。
- 由于 AI 研究人员几乎从不发表负面结果,因此“AI for Science”正经历着 幸存者偏差。
- 发表的积极结果往往对 AI 的潜力过于乐观。
因此,我开始相信,AI 在科学领域的成功和革命性程度通常低于其表面上的表现。
最终,我不知道 AI 是否会扭转几十年来的 科学生产力下降 以及 科学进步 停滞(甚至减速)的趋势。我想没人知道。但是,除非在高级 AI 方面取得重大(并且在我看来不太可能)的突破,否则我预计 AI 将更多地成为一种 常态化的 工具,用于实现渐进式的、不平衡的科学进步,而不是一种革命性的工具。
我在使用 PINN 时的失望经历
2019 年夏天,我第一次体验到了后来成为我的博士论文主题的东西:使用 AI 求解 PDEs。PDEs 是用于对各种物理系统建模的数学方程,求解(即模拟)它们是计算物理学和工程学中一项极其重要的任务。我的实验室使用 PDEs 来 建模 等离子体的行为,例如在聚变反应堆内部和外太空的星际介质中。
用于求解 PDEs 的 AI 模型是定制的深度学习模型,与 ChatGPT 相比,更类似于 AlphaFold。
我尝试的第一种方法是物理信息神经网络,即 physics-informed neural network。PINN 最近在一篇 有影响力的论文 中被提出,该论文已经获得了数百次引用。
与标准数值方法相比,PINN 是一种完全不同的 PDEs 求解方法。标准方法将 PDE 解表示为一组像素(如在图像或视频中),并推导出每个像素值的方程。相比之下,PINN 将 PDE 解表示为神经网络,并将方程放入损失函数中。
作为一个还没有导师的天真的研究生,PINN 的某些方面对我有难以置信的吸引力。它们看起来非常简单、优雅和通用。
它们似乎也取得了很好的结果。介绍 PINN 的 论文 发现,它们的“有效性”已通过“流体、量子力学、反应扩散系统和非线性浅水波传播中的一系列经典问题得到证明”。我认为,如果 PINN 解决了所有这些 PDEs,那么它们肯定可以解决 我的实验室关心的一些 等离子体物理 PDEs。
但是,当我将 那篇 有影响力的第一篇论文中的一个 例子(1D Burgers’)替换为另一个仍然非常简单的 PDE(1D Vlasov)时,结果看起来与精确解完全不同。最终,经过大量的调整,我能够得到一些看起来正确的东西。但是,当我尝试稍微复杂的 PDEs(例如 1D Vlasov-Poisson)时,无论进行多少调整,都无法获得像样的解决方案。
在经历了几个星期的失败后,我给另一所大学的朋友发了消息,他告诉我他也尝试过使用 PINN,但未能获得好的结果。
我从 PINN 实验中学到了什么
最终,我意识到哪里出了问题。最初的 PINN 论文的作者和我一样,“观察到为一种方程产生令人印象深刻结果的特定设置可能无法用于另一种方程”。但是,因为他们想说服读者 PINN 有多么令人兴奋,所以他们没有展示任何 PINN 失败的例子。
这段经历教会了我一些事情。首先,要谨慎对待 AI 研究的表面价值。大多数科学家并不想误导任何人,但是由于他们面临着展示有利结果的强烈动机,因此仍然存在被误导的风险。展望未来,我必须更加怀疑,即使(或可能尤其)是对具有令人印象深刻结果的高影响力论文。
其次,人们很少发表关于 AI 方法失败的论文,只发表关于 AI 方法成功的论文。最初的 PINN 论文的作者没有发表关于他们的方法无法解决的 PDEs 的信息。我没有发表我未成功的实验,只是在一个默默无闻的会议上展示了一个 海报。因此,很少有研究人员听到过它们。事实上,尽管 PINN 非常受欢迎,但花了四年时间才有人发表 一篇关于 其失败模式的论文。该论文现在有近一千次引用,这表明许多其他科学家尝试过 PINN,并发现了类似的问题。
第三,我得出结论,PINN 不是我想使用的方法。它们当然简单而优雅,但它们也 太不可靠、太挑剔 和 太慢 了。
截至今天,六年后的今天,最初的 PINN 论文拥有惊人的 14,000 次引用,使其成为 21 世纪被引用次数最多的数值方法论文(而且,据我统计,还有一两年时间就将成为有史以来第二大被引用次数最多的数值方法论文)。
尽管现在人们普遍认为 PINN 在 求解 PDEs 方面通常无法与标准数值方法竞争,但对于 PINN 在被称为 逆问题 的另一类问题中的表现如何,仍然存在争议。倡导者声称 PINN 对于逆问题“ 特别有效”,但一些研究人员 强烈反对 这种观点。
我不知道辩论的哪一方是正确的。我希望 有些有用的东西来自 所有这些 PINN 研究,但如果有一天我们回顾 PINN 时,发现它只是一个巨大的引用泡沫,我也不会感到惊讶。
弱基线导致过度乐观
对于我的论文,我专注于使用深度学习模型求解 PDEs,这些模型像传统的求解器一样,将 PDE 解视为网格或图表上的一组像素。
与 PINN 不同,这种方法在我的实验室关心的复杂、时变的 PDEs 上显示出很大的希望。最令人印象深刻的是,论文又论文已经证明了能够比标准数值方法更快地求解 PDEs——通常快几个数量级。
最让 我的导师 和我兴奋的例子是来自流体力学的 PDEs,例如 Navier-Stokes 方程。我们认为我们可能会看到类似的速度提升,因为我们关心的 PDEs——描述 聚变反应堆 中 等离子体的方程,例如——具有 类似的数学结构。从理论上讲,这可以让像我们这样的科学家和工程师模拟更大的系统,更快速地优化现有设计,并最终加速研究的步伐。
到目前为止,我已经足够有经验,知道在 AI 研究中,事情并不总是像看起来的那么美好。我知道可靠性和稳健性可能非常严重的问题。如果 AI 模型提供更快的模拟,但这些模拟的可靠性较低,那么是否值得权衡?我不知道答案,于是着手寻找答案。
但是,当我尝试——并且 大多失败——使这些模型更可靠时,我开始质疑 AI 模型在加速 PDEs 方面究竟显示出了多少希望。
根据许多 备受瞩目的论文,AI 求解 Navier-Stokes 方程的速度比标准数值方法快几个数量级。但是,我最终发现这些论文中使用的基线方法不是可用的最快的数值方法。当我将 AI 与更高级的数值方法进行比较时,我发现 AI 并不比更强的基线快(或最多,只是稍微快一些)。
[当 AI 求解 PDEs 的方法与强大的基线进行比较时,AI 无论多么狭隘的优势通常都会消失。]
我和我的导师最终 发表了 一篇系统的评论文章,介绍了使用 AI 求解来自流体力学的 PDEs 的研究。我们发现,在声称优于标准数值方法的 76 篇论文中,有 60 篇论文(79%)使用了弱基线,要么是因为它们没有与更高级的数值方法进行比较,要么是因为它们没有在同等基础上进行比较。具有较大速度提升的论文 都 与弱基线进行了比较,这表明结果越令人印象深刻,论文就越有可能做出不公平的比较。
[对比较 AI 求解流体力学 PDEs 的方法与标准数值方法的研究进行系统回顾的结果。很少有论文报告负面结果,而报告正面结果的论文大多与弱基线进行了比较。]
我们还再次发现,研究人员往往不报告负面结果,这种效应被称为 报告偏差。我们最终 得出结论,即“AI for PDE solving”研究过于乐观:“弱基线导致过于积极的结果,而报告偏差导致对负面结果的报告不足。”
这些发现 引发了关于 AI 在计算科学和工程领域的辩论:
- Lorena Barba 是 GWU 的一位教授,她之前曾讨论过她 称之为 “Scientific Machine Learning to Fool the Masses”中的不良研究行为,她 认为 我们的结果是“为我们在计算科学界对 AI 的炒作和非科学乐观主义的担忧提供了有力的证据”。
- Stephan Hoyer 是 Google Research 中一个 团队 的负责人,该团队独立得出了 类似的结论,他 描述 我们的论文是“对我为什么从用于 PDEs 的 [AI] 转到天气预报和气候建模的很好的总结”,AI 在这些应用中似乎 更有希望。
- Johannes Brandstetter 是 JKU Linz 的一位教授,也是一家提供“AI 驱动的物理模拟”的 初创公司 的联合创始人,他 认为 AI 可能会在更复杂的工业应用中取得更好的结果,并且“该领域的未来仍然不可否认地充满希望和潜力”。
在我看来,AI 最终可能会在与求解 PDEs 相关的某些应用中证明是有用的,但我目前没有看到太多乐观的理由。我希望看到更多地关注于尝试匹配数值方法的可靠性,以及对 AI 方法进行 red teaming;目前,它们既没有标准数值方法的 理论保证,也没有经过经验验证的稳健性。
我还希望看到资助机构激励科学家为 PDEs 创建挑战性问题。一个好的模型可以是 CASP,这是一个两年一度的蛋白质折叠竞赛,在过去 30 年里帮助激励和重点关注了该领域的研究。
AI 会加速科学发展吗?
除了 蛋白质折叠(AI 取得科学突破的典型例子)之外,AI 在科学进步方面的一些例子包括:1
- 天气预报,与传统的基于物理的预报相比,AI 预报 的准确度提高了 20%(但分辨率仍然较低)。
- 药物发现,初步数据 表明 AI 发现的药物在 I 期(但不在 II 期)临床试验中更成功。如果该趋势持续下去,这将意味着端到端药物批准率将提高近两倍。
但是,AI公司、学术 和 政府 组织以及 媒体 越来越多地将 AI 不仅视为一种 有用的科学工具,而且认为 它将 “对科学产生变革性影响”。
我认为我们不一定应该无视这些说法。虽然目前的 LLMs,根据 DeepMind 的说法,“仍然难以胜任人类科学家所依赖的更深层次的创造力和推理”,但 假设的高级 AI 系统 可能有一天能够 完全自动化 科学过程。我不认为这会在近期发生——如果真的会发生的话。但是,如果创建了此类系统,毫无疑问它们将改变和加速科学。
但是,根据我研究经验中的一些教训,我认为我们应该对传统 AI 技术能够显著加速科学进步的观点持相当怀疑的态度。
关于科学领域 AI 的教训
大多数关于 AI 加速科学发展的叙述都来自 AI 公司或从事 AI 工作的科学家,他们直接或间接地从这些叙述中受益。例如,NVIDIA 的 CEO 黄仁勋 谈到 “AI 将如何推动科学突破”以及“将科学加速一百万倍”。NVIDIA 的 财务利益冲突 使其成为一个特别不可靠的叙述者,它经常发表关于科学领域 AI 的夸张言论。
你可能会认为,科学家对 AI 的日益采用是 证明AI在科学领域的有用性。毕竟,如果 AI 在科学研究中的使用呈指数级增长,那一定是由于科学家发现它有用,对吗?
我不太确定。事实上,我怀疑科学家转向 AI,与其说是因为它有益于科学,不如说是因为它有益于他们。2
考虑一下我在 2018 年转向 AI 的动机。虽然我真诚地认为 AI 可能在等离子体物理学中有所帮助,但我主要是受到更高的薪水、更好的就业前景和学术声望的推动。我还注意到,我实验室的领导似乎通常对 AI 的 筹款潜力 比技术考虑因素更感兴趣。
后来的研究发现,使用 AI 的科学家 更有可能发表被引用次数最多的论文,并且平均获得 三倍的引用次数。由于使用 AI 的动机如此强烈,因此如此多的科学家这样做也就不足为奇了。
因此,即使 AI 在 科学领域取得了真正令人印象深刻的结果,这并不意味着 AI 为 科学领域做了有用的事情。更多时候,它只反映了 AI 有可能 在未来发挥作用。
这是因为从事 AI 工作的科学家(包括我自己)经常倒着工作。我们不是先确定一个问题,然后尝试找到解决方案,而是首先假设 AI 将成为解决方案,然后寻找要解决的问题。但是,由于很难确定可以使用 AI 解决的开放性科学挑战,因此这种“ 锤子在寻找钉子" 风格的科学意味着研究人员经常会解决适合使用 AI 的问题,但这些问题要么已经解决,要么没有创造新的科学知识。
为了准确评估 AI 对科学的影响,我们需要真正看看科学。但不幸的是,科学文献并不是评估 AI 在科学领域成功与否的可靠来源。
一个问题是 幸存者偏差。