当 ChatGPT 颠覆一个领域:口述历史

作者:John Pavlus

2025年4月30日

“自然语言处理”领域的研究人员试图驯服人类语言。然后,Transformer 模型出现了。

对该领域而言,一件非常重要的事情发生了。 对人们来说也是如此。 —Christopher Potts

作者:John Pavlus 特约撰稿人

2025年4月30日

artificial intelligence computer science machine learning natural language processing neural networks All topics

科学家们识别范式转变,尤其是在实时状态下,可能很棘手。毕竟,知识领域真正具有颠覆性的更新可能需要数十年才能展开。但你并不一定需要使用“P-word”来承认一个特定领域——natural language processing,或 NLP——已经发生了变化。而且是很大的变化。

自然语言处理的目标就在其名称中:使人类语言的混乱性(“自然”部分)能够被计算机处理(“处理”部分)。NLP 融合了工程和科学,其历史可以追溯到 20 世纪 40 年代,它赋予了 Stephen Hawking 声音,Siri 大脑,并为社交媒体公司提供了另一种方式来针对我们投放广告。它也是大型语言模型出现的中心——这项技术由 NLP 帮助发明,但其爆炸性增长和变革性力量仍然让该领域的许多人感到惊讶。

换句话说:2019 年,Quanta 杂志报道了一个当时具有突破性的 NLP 系统,名为 BERT,但一次也没有使用“大型语言模型”这个词。仅仅五年半后,LLM 无处不在,在它们触及的任何科学界中引发了发现、颠覆和辩论。但它们首先触及的领域——无论是好是坏,还是介于两者之间——是自然语言处理。这种影响对亲身经历它的人来说感觉如何?

Quanta 杂志采访了 19 位现任和前任 NLP 研究人员来讲述这个故事。从专家到学生,从终身教授到创业创始人,他们描述了一系列时刻——顿悟、欣喜的相遇,以及至少一次“存在危机”——这些时刻改变了他们的世界。以及我们的世界。


序言:洪水之前

transformers • BERTology • 规模

到 2017 年,神经网络就已经改变了 NLP 的现状。但那年夏天,在如今具有开创意义的论文《Attention Is All You Need》中,Google 的研究人员引入了一种全新的神经网络,称为 Transformer,它将很快主导该领域。并非所有人都预见到了这一点。

ELLIE PAVLICK(布朗大学计算机科学与语言学助理教授;Google DeepMind 研究科学家):Google 在纽约组织了一次研讨会,让学者们与他们的研究人员会面,Jakob Uszkoreit 是那篇论文的作者之一,他在会上介绍了这篇论文。他非常明确地指出,这个模型的设计方式非常激进,没有采纳任何来自语言的见解。几乎有点像在钓鱼:我要讲讲我们做出的所有这些随机决定,看看这有多么荒谬,但看看它效果有多好。

当时已经有一种神经网络接管一切的感觉,所以人们非常怀疑并抵制。每个人最主要的看法是,“这些都只是黑科技。”

RAY MOONEY(德克萨斯大学奥斯汀分校 UT 人工智能实验室主任):这有点有趣,但并不是一个立即的突破,对吧?不是说第二天世界就改变了。我真的认为从概念上讲,它并不是处理语言的正确模型。我只是没有意识到,如果你用大量数据来训练这个概念上非常错误的模型,它就能做出惊人的事情。

NAZNEEN RAJANI(Collinear AI 创始人兼 CEO;当时是 Ray Mooney 的博士生):我清楚地记得在我们的 NLP 阅读小组中阅读了《Attention Is All You Need》。实际上是 Ray 主持的,我们进行了非常热烈的讨论。 attention 的概念已经存在一段时间了,也许这就是为什么 Ray 的反应有点“一般般”的原因。但我们当时想,“哇,这看起来像是一个转折点。”

R. THOMAS MCCOY(耶鲁大学语言学系助理教授):在那年夏天,我清楚地记得我所在的研究团队的成员问:“我们应该研究一下这些 Transformer 模型吗?” 并且每个人都得出结论:“不,它们显然只是一时的流行。”

CHRISTOPHER POTTS(斯坦福大学语言学系主任):Transformer 模型的论文从我身边溜走了。即使你现在读它,它也非常低调。我认为任何人都很难从论文中看出它会产生什么影响。这需要其他有远见的人,比如 BERT 团队。

在 2018 年 10 月 推出 后不久,Google 的开源 Transformer 模型 BERT(以及 OpenAI 一个不太出名的模型 GPT)开始打破之前神经网络在许多语言处理任务上的性能记录。随后出现了一阵“BERTology”,研究人员努力确定这些模型的工作原理,同时争先恐后地在基准测试中超越彼此——基准测试是帮助衡量 NLP 进展的标准测试。

ANNA ROGERS(哥本哈根 IT 大学计算机科学副教授;ACL Rolling Review 主编):当时出现了一次爆炸式的增长,每个人都在写关于 BERT 的论文。我记得我所在的研究小组进行了一次讨论:“好吧,我们必须研究 BERT,因为这就是趋势。” 作为一个年轻的博士后,我只是接受了它:这就是该领域正在做的事情。我有什么资格说这个领域是错误的?

JULIAN MICHAEL(Scale AI 安全、评估和对齐实验室负责人;当时是华盛顿大学的博士生):所以当 BERT 发布时,有很多项目都被搁置了。接下来发生的是,这些基准测试的进展速度比预期的要快得多。所以人们会说:“我们需要更多的基准测试,我们需要更难的基准测试,我们需要对我们可以测试的一切进行基准测试。”

有些人认为这种“基准测试热潮”是一种干扰。另一些人则从中看到了未来发展的方向。

SAM BOWMAN(Anthropic 技术人员;当时是纽约大学的副教授):当人们提交基准测试结果并希望出现在排行榜上时,我经常需要检查结果以确保它有意义,而不是有人在垃圾信息填充我们的系统。所以我看到了每个结果,我注意到其中有多少只是越来越多地将旧的或简单的想法扩大规模。

JULIAN MICHAEL:这变成了一场规模竞赛:扩大这些模型的规模将提高它们饱和我们所能抛出的任何基准测试的能力。我想,“好吧,我发现这本身并不有趣。”

SAM BOWMAN:当时的背景假设是,“如果没有新的突破,Transformer 模型不会比 BERT 好很多。” 但对我来说,越来越清楚的是,规模是决定这件事能走多远的主要因素。你将会得到非常强大的通用系统。事情将会变得有趣。风险将会变得更高。

所以我对这个问题非常感兴趣:好吧,如果你把这件事再拖几年会发生什么?


I. 玫瑰战争(2020–22)

“理解战争”• GPT-3 • “处于危机中的领域”

随着 Transformer 模型在各种 NLP 基准测试中接近(并超过)“人类基线”,关于如何解释它们的能力的争论已经开始酝酿。在 2020 年,这些争论——尤其是关于“意义”和“理解”——在一篇将 LLM 想象成章鱼的论文中达到了高潮。

EMILY M. BENDER(华盛顿大学语言学系教授;计算语言学协会 2024 年主席):我一直在 Twitter 上进行无休止的争论,并且对此感到非常不高兴。其中一个争论是关于使用 BERT 来解密穆勒报告,这是一个糟糕的想法。似乎总是有源源不断的人想要来找我说,“不,不,不,LLM 确实理解。” 这种争论一遍又一遍地重复。

我当时正在与 [计算语言学家] Alexander Koller 谈话,他说:“让我们写一篇 这方面的学术论文,这样它就不仅仅是 Twitter 上的想法,而是经过同行评审的研究。这将会结束这一切。” 但它并没有结束这一切。

Bender 和 Koller 的“章鱼测试”断言,仅通过统计模式来模仿语言形式训练的模型永远无法参与其意义——就像“超智能章鱼”永远无法真正理解陆地上的生活是什么样的,即使它能流利地再现它在人类信息中观察到的模式。

SAM BOWMAN:这种论点——“这里没什么好看的”,神经网络语言模型从根本上来说不是我们应该感兴趣的东西,很多都是炒作——这种论点极具争议。

JULIAN MICHAEL:我也参与了那件事。我写了 一篇驳斥该论文的文章 ——那是我写过的唯一一篇博客文章,它的长度和一篇论文本身一样。我努力使其成为作者所说内容的真实代表。我甚至让 Emily 阅读了我的文章草稿,并纠正了我的一些误解。但是,如果你仔细阅读,就会发现我是在肢解它。只不过脸上带着微笑。

ELLIE PAVLICK:这些“理解战争”——对我来说,那是该领域真正发生清算的时候。

与此同时,另一场清算——由现实世界的规模驱动,而不是思想实验——已经在进行中。在 2020 年 6 月,OpenAI 发布了 GPT-3,该模型比其之前的版本大 100 多倍,并且功能更强大。ChatGPT 还有几年的时间才能问世,但对于许多 NLP 研究人员来说,GPT-3 是改变一切的时刻。现在,Bender 的章鱼成真了。

CHRISTOPHER CALLISON-BURCH(宾夕法尼亚大学计算机与信息科学教授):我很早就获得了 GPT-3 的 Beta 版,并且自己也在玩它。我尝试了我最近的博士生作为他们的论文所做的所有事情,并且意识到——天哪,一个学生花费了五年时间做的事情?似乎我可以在一个月内重现它。所有这些经典的 NLP 任务,其中许多任务我在我的职业生涯中都接触过或积极研究过,感觉就像是一蹴而就。就像,完成了。这真的非常令人震惊。我有时将其描述为经历了一场职业存在危机。

NAZNEEN RAJANI:当我尝试 GPT-3 时,它在安全性方面有很多限制。当你问诸如“应该允许女性投票吗?”之类的问题时,它会说不,诸如此类的事情。但是,你只需用三四行自然语言就可以教它完成一项全新的任务,这一事实令人难以置信。

CHRISTOPHER POTTS:我们小组中的某个人很早就获得了 GPT-3 API 的访问权限。我记得我站在我的办公室里,就在我现在站着的地方,心想:我要用一些逻辑问题来提示它,它会失败的。我要揭示它只是记住了所有让你印象深刻的东西。我要告诉你这只是一个花招。

我记得我尝试了一次又一次。然后我不得不向小组坦白:“是的,这绝对不仅仅是一个花招。”

YEJIN CHOI(斯坦福大学计算机科学教授;2022 年麦克阿瑟研究员):它仍然存在缺陷。从 GPT-3 中获得的许多常识知识都非常嘈杂。但是 GPT-2 几乎为零——它一点用也没有。而 GPT-3 大约有三分之二的可用性,这让我感到非常兴奋。

R. THOMAS MCCOY:这篇 GPT-3 论文 有点像“权力的游戏”的系列大结局。这是每个人都读过、讨论过和八卦过的事情。

LIAM DUGAN(宾夕法尼亚大学四年级博士生):这几乎就像我们有一个秘密,而你与每个人分享这个秘密时,每个人都会惊呆。我所要做的就是把某人带到我的笔记本电脑旁。

JULIAN MICHAEL:BERT 是该领域的一次相变,但 GPT-3 更加发自内心。一个产生语言的系统——我们都知道 ELIZA 效应,对吧?它在我们内心产生了更强烈的反应。但它也更多地改变了我们所做研究的实际情况——这就像,“理论上,你可以用 [这个] 做任何事情。” 这有什么影响? 这打开了一个巨大的潘多拉魔盒。

OpenAI 没有公开发布 GPT-3 的源代码。大规模、颠覆性能力和公司保密性的结合让许多研究人员感到不安。

SAM BOWMAN:这是一个有点分裂的时刻,因为 GPT-3 实际上并不是来自 NLP 社区。一段时间以来,发表主要关于 GPT-3 的研究结果实际上是不赞成的,因为它 [被认为] 是一种私人产品,你必须花钱才能访问它,而这在历史上通常不是这种情况。

ANNA ROGERS:我当时正在考虑再做一个基准测试,但我不再认为它有意义了。假设 GPT-3 可以或不能继续 [生成] 这些字符流。这告诉我一些关于 GPT-3 的信息,但实际上这甚至不是一个机器学习研究问题。这是免费的产品测试。

JULIAN MICHAEL:当时有一种说法,叫做“API 科学”,人们会用它来说:“我们正在对产品进行科学研究?这不是科学,它是不可重复的。” 而另一些人则说:“听着,我们需要站在最前沿。这就是存在的。”

TAL LINZEN(纽约大学语言学和数据科学副教授;Google 研究科学家):有一段时间,学术界的人们真的不知道该怎么办。

这种矛盾心理甚至也存在于 Microsoft 和 Google 等行业实验室内部,Microsoft 获得了 GPT-3 的独家许可。

KALIKA BALI(Microsoft Research India 高级首席研究员):Microsoft 的领导层很早就告诉我们这件事正在发生。感觉就像你坐在某个火箭上,从地球被扔到月球上。虽然 [这] 非常令人兴奋,但它的速度意味着你真的必须查看所有的导航仪器,以确保你仍然朝着正确的方向前进。

EMILY M. BENDER:Timnit Gebru [当时是 Google 的一位 AI 伦理研究员] 在 Twitter 的 DM 交流中联系了我,询问我是否知道任何关于使语言模型越来越大的可能缺点的论文。在 Google,她看到她周围的人不断地推动:“OpenAI 的更大。我们必须让我们的更大。” 而她的工作是说,“可能会出什么问题?”

Bender 随后与 Gebru 及其同事合写了一篇论文——《论随机鹦鹉的危险:语言模型会太大吗?》——将道德紧迫性注入到该领域围绕形式与意义、方法与规模的核心(且日益痛苦)的论点中。结果是 NLP 中的一场内战。

KALIKA BALI:Emily 提出的一些观点是我们应该考虑的事情。那一年,NLP 社区突然决定担心它除了世界上排名前五的语言之外,忽略了其他一切——以前从来没有人谈论过这些事情。但我不喜欢的是,整个 NLP 社区都组织起来支持和反对这篇论文。

R. THOMAS MCCOY:你是支持还是反对 LLM?当时的情况非常非常严重。

JULIE KALLINI(斯坦福大学计算机科学系二年级博士生):作为一名年轻的研究人员,我绝对感觉到存在不同的阵营。当时,我还是普林斯顿大学的一名本科生。我清楚地记得,我所仰慕的不同的人——我的普林斯顿大学研究导师 [Christiane Fellbaum] 与其他大学的教授——站在不同的阵营。我不知道该站在哪一边。

KALIKA BALI:这篇论文的发表是积极的,但是看到你真正尊重的人互相拔刀相向,也让人感到压力。我实际上离开了 Twitter。我对此感到压力。

LIAM DUGAN:作为一名博士生,紧张感在于:如果你想做一项在发表后两三年以上具有任何持久影响的研究,你必须选择一个阵营。因为它决定了你看待问题的方式。

我经常阅读双方的文章。通常,你只需订阅 Substack 即可查看愤怒的语言学方面的文章,然后你就可以在 Twitter 上查看支持扩展规模方面的文章。

JEFF MITCHELL(萨塞克斯大学计算机科学和 AI 助理教授):感觉有点不正常,所有这些都变得如此有争议。

随着规模驱动的研究继续加速,有些人认为该领域内部的讨论正在严重恶化。为了修复它,NLP 研究社区在 2022 年夏天对自身进行了 调查,调查内容涉及“30 个可能存在争议的立场”——包括“语言结构是必要的”、“扩展规模几乎可以解决任何重要问题”以及“AI 可能很快导致革命性的社会变革”。

SAM BOWMAN:行业社区在早期围绕扩展规模做了很多工作,但他们从未与学术 NLP 如此紧密地联系在一起。他们被视为局外人。这导致了这两个 [群体] 之间在理解和人们认为正在发生的事情方面的差异,因为他们彼此之间的交流并不多。

LIAM DUGAN:他们在 ACL [计算语言学协会,该领域最顶级的会议] 上发布了大部分调查。这是我参加的第一个会议,这让我非常兴奋,因为那里有所有这些非常聪明的人。所以我得到了调查,我在手机上阅读它,我只是觉得,“他们听起来像疯子。”

JULIAN MICHAEL:这已经是一个处于危机中的领域。该调查只是让我们有了更强烈的意识。

LIAM DUGAN:你可以看到整个领域的崩溃——各个阵营正在凝聚。语言学方面的人不太信任原始的 LLM 技术。有一方处于中间位置。然后有一方完全疯狂,他们真的相信扩展规模会将我们带到通用智能。

当时,我只是对他们不屑一顾。然后 ChatGPT 就发布了。


II. 希克苏鲁伯(2022 年 11 月至 2023 年)

ChatGPT • 粗鲁的觉醒 • “淹没在噪音中”

2022 年 11 月 30 日,OpenAI 推出了其实验性聊天机器人。ChatGPT 像一颗小行星一样撞击了 NLP 社区。

IZ BELTAGY(艾伦人工智能研究所首席研究科学家;SpiffyAI 首席科学家兼联合创始人):在一天之内,很大一部分研究人员正在研究的问题——它们就消失了。

CHRISTOPHER CALLISON-BURCH:我没有预测到它。我认为没有人预测到它。但我为此做好了准备,因为我之前已经通过 GPT-3 经历了那种体验。

R. THOMAS MCCOY:对于一个特定的研究项目来说,被其他人类似的东西抢先或淘汰是相当常见的。但是 ChatGPT 对整个类型的研究都做了同样的事情,而不仅仅是针对特定的项目。许多更高层次的 NLP 变得不再有趣——或者对学者来说不再实用。

SAM BOWMAN:感觉就像这个领域完全重新调整了方向。

IZ BELTAGY:在 EMNLP [自然语言处理实证方法] 期间,我感受到了这种恐惧和困惑,这是主要的会议之一。它发生在 12 月,也就是 ChatGPT 发布一周后。每个人仍然感到震惊:“这会是最后一次 NLP 会议吗?” 这实际上是有人说过的一句话。在午餐、鸡尾酒和在大厅里的谈话中,每个人都在问同样的问题:“我们还能做些什么?”

NAZNEEN RAJANI:我刚刚在 EMNLP 上发表了主题演讲。几天后,Thom Wolf,我的经理兼 Hugging Face 的联合创始人之一,给我发消息说:“嘿,你能尽快和我通个电话吗?” 他告诉我,他们解雇了研究团队的人员,其余的人要么做预训练,要么做后训练——这意味着你要么构建一个基础模型,要么采用一个基础模型并将其制成一个指令跟随模型,类似于 ChatGPT。他说:“如果你想继续留在 Hugging Face,我建议你选择这两个中的一个。”

这感觉不像 Hugging Face 文化所代表的。直到那时,每个人基本上都在做自己的研究,做他们想做的事情。这绝对让人感觉不太好。

粗鲁的觉醒也来自底层——正如一位杰出的 NLP 专家在 ChatGPT 发布后的几周里,在教授她的本科课程时亲身体验到的那样。

CHRISTIANE FELLBAUM(普林斯顿大学语言学和计算机科学讲师,教授级别):我们刚刚开始我们的学期。就在上课前,一位我还不认识的学生走到我面前,向我展示了一篇论文,上面有我的名字和标题,并说:“我真的很想上你的课——我已经研究过你的作品,我发现了你写的这篇论文,但我对它有几个问题。你能回答吗?”

我说:“好吧,当然可以。” 我受宠若惊:他正在研究我,多么好啊。所以我翻阅了这篇论文。当我试图刷新我的记忆时,他突然歇斯底里地大笑起来。我说:“有什么好笑的?” 他说:“这篇论文是 ChatGPT 写的。我说,‘用 Christiane Fellbaum 的风格写一篇论文’,这就是结果。”

现在,我没有阅读每一行,因为我必须在 10 分钟后开始上课。但是一切看起来都像我会写的东西。他完全骗了我。我走进教室,心想,“我该怎么办?”

在接下来的一年里,博士生也面临着他们新的现实。ChatGPT 威胁了他们的研究项目,甚至可能威胁到他们的职业生涯。有些人比其他人处理得更好。

CHRISTOPHER CALLISON-BURCH:当发生这样的事情时,拥有终身教职会有所帮助。但是年轻人正在以更发自内心的方式经历这场危机。一些博士生实际上成立了互助小组。

LIAM DUGAN:我们只是互相安慰。很多比我资深的博士生,已经开始了论文工作,真的不得不做出艰难的转变。很多这些研究方向,似乎不再有任何智力上的意义。只是应用语言模型,就完成了。

奇怪的是,[我认识的] 没有人辞职。但有一点悄然辞职的味道。只是有点拖延或变得非常愤世嫉俗。

RAY MOONEY:我自己的 [研究生] 之一考虑过辍学。他们认为真正的行动可能发生在工业界而不是学术界。我想,你知道,也许他们没有错。但我很高兴他们决定留下来。

JULIE KALLINI:2023 年开始我的博士学位,这是一个不确定的地方。我真的不确定我的方向会走向何方,但每个人都处境相同。我想我只是开始处理它。我试图确保我很好地掌握了我的机器学习基础知识。只专注于大型语言模型中可能转瞬即逝的趋势不是最明智的做法。

与此同时,从西雅图到南非的 NLP 研究人员面临着如潮水般涌来的全球关注,但并非所有关注都是好的。

VUKOSI MARIVATE(比勒陀利亚大学 ABSA 数据科学主席;Masakhane 联合创始人):我不知道我在 2023 年举办了多少次关于 LLM 的教程。一方面,你多年来一直试图与人们交谈,并说,“这里正在发生一些有趣的事情。” 然后突然之间,它就像是一条完整的瀑布,“来向我们解释一下。”

SAM BOWMAN:它从一个相对沉睡的领域变成,突然间,我与那些在同一个月与教皇和总统会面的人共进午餐。

EMILY M. BENDER:从一月到六月,我统计了有五天工作日没有媒体联系。这是马不停蹄的。

ELLIE PAVLICK:在 ChatGPT 之前,我不认为我曾与记者交谈过。也许一两次。在 ChatGPT 之后,我上了《60 分钟》。这是工作性质上巨大的质的差异。

CHRISTOPHER CALLISON-BURCH:我觉得我的工作从一位拥有狭窄受众(即我的领域的博士生和其他研究人员)的学者变成了,“嘿,这里有进行科学传播的重要责任。” 我被邀请到国会 作证

LIAM DUGAN:作为一名二年级博士生,我突然被要求在采访中发表我的意见。当时,这感觉非常酷,就像,“我真是这方面的专家!” 然后感觉不那么令人兴奋,而更让人感到不知所措:“你认为这在未来会走向何方?” 我不知道。你为什么要问我?

当然,我会自信地回答。但这太疯狂了:有成千上万篇论文。每个人都对正在发生的事情有自己的看法。而且他们中的大多数人都不知道自己在说什么。

SAM BOWMAN:出现了一种伟大的参与:突然间,来自许多领域的许多非常优秀的人都在关注这些东西。而且它也被淹没在噪音中:每个人都在一直谈论这些东西,很多非常草率的观点毫无意义。这很棒,也很不幸。

NAZNEEN RAJANI:那一年有点像过山车。

2023 年 12 月,在 ChatGPT 发布一年后,一年一度的 EMNLP 会议再次在新加坡举行。

LIAM DUGAN:温度要高得多,而 arxiv [预印本] 结果的涌入也非常强烈。你会在大厅里走动:一路走下去,都是提示和语言模型的评估。

而且感觉非常不同。至少,感觉那里的人比好的研究想法要多。它已经不再像 NLP,而更像 AI。


III. 变通(2024–25)

LLM-ology • 金钱 • 成为 AI

对于 NLP 来说,LLM 生成的文字已经写在了墙上——它向该领域的不同的人表达了不同的含义。

R. THOMAS MCCOY:每当你做一些询问 AI 系统能力的工作时,你应该关注那些我们可以访问训练数据的系统。但这根本不是该领域普遍采用的方法。从这个意义上讲,我们已经变成了“LLM-ologists”,而不是科学家。

ELLIE PAVLICK:我 100% 对此感到内疚。我在做演讲时经常说:“现在,我们正在研究语言模型。” 我明白这看起来有多么短视。但你必须看到它所适应的这种非常长期的研究议程。在我看来,没有一种理解语言的方法是不考虑“LLM 正在做什么?”的。

KALIKA BALI:每次发生主要来自西方的技术颠覆时,总会有这些——如果你可以这么称呼它的话——哲学上的担忧。而在全球南方的大多数地区,我们都在考虑,“我们如何才能让它在此时此地为我们所用?”

这是一个小例子。在印度,[在 ChatGPT 发布后] 每个人聚集在一起的最初想法是让生成式语言模型用英语完成他们的工作,然后在它前面放置一个翻译系统,以便输出成你想要的任何语言。但是机器翻译系统是字面的。所以,如果你有一个数学问题说“John 和 Mary 有一个酸橙派要分”,而你把它翻译成印地语,我可以打赌印度的大多数人不知道什么是酸橙派。除非模型本身被设计为理解事物,否则你如何将其翻译成具有文化特殊性的东西?我变得更加感兴趣的是如何解决这个问题。

IZ BELTAGY:在某个时候,你会意识到,为了继续推进这个领域,你需要构建这些庞大而昂贵的工具。就像大型强子对撞机——没有类似的东西,你就无法推进实验物理学。

我很幸运能在 Ai2 工作,它通常比大多数学术实验室拥有更多的资源。ChatGPT 清楚地表明,OpenAI 与其他所有人之间存在巨大差距。所以在它之后,我们立即开始思考我们可以从头开始构建这些东西的方法。而这正是发生的事情。

2024 年,Ai2 的 OLMo 为日益拥挤的行业开发的语言模型领域提供了一个完全开源的替代方案。与此同时,一些继续研究这些专有系统的研究人员——在 ChatGPT 之后,这些系统在规模、能力和不透明度方面都得到了增长——已经遇到了新的一种抵制。

YEJIN CHOI:我在 [2023 年底] 发表了这篇论文,证明了最新的 GPT 模型似乎擅长做乘法运算,但是当你使用三位或四位数字时,突然变得非常糟糕。对此的反应非常具有分裂性。根本不做实证研究的人都在说,“你做实验的方式正确吗?” 以前从未发生过这种情况。这些都是情绪化的反应。我真的很喜欢这些人,所以我并没有被他们吓倒或什么。我只是惊讶于这件事的影响力有多大。这几乎就像我伤害了他们的孩子。这让人大开眼界。

毫无根据的炒作对科学没有帮助。我认为更严格地研究 LLM 的基本限制和能力非常重要,而那是我在 2024 年的主要研究重点。我发现自己陷入了一种奇怪的境地,我正在成为如何证明模型无法做到这或那的负面批评者。我认为这很重要——但我不想让它成为我所做的一切。所以我实际上正在考虑 不同的问题

TAL LINZEN:当我们假装正在进行一场科学对话时,有时会感到困惑,但是对话中的一些人在一家可能价值 500 亿美元的公司中拥有股份。

研究势头、资金和炒作的爆发抹去了 NLP 和 AI 之间本已多孔的界限。研究人员面临着一系列新的激励措施和机会——不仅是为了他们自己,也是为了该领域本身。

NAZNEEN RAJANI:它打开了原本不可能打开的大门。我是第一个获得数据以在开源中重现 ChatGPT 的人之一——我基本上写了它的食谱,这太棒了。这使我为我的初创公司获得了一轮良好的种子轮融资。

R. THOMAS MCCOY:任何与 AI 相邻的教师成员都开始被视为 AI 人员——你在某种程度上被定型为扮演这个角色。我很高兴从事 AI 工作,因为这是我可以用我的技能组合来做的最有影响力的事情之一。但是,能给我带来最大快乐的是深入研究语法和人类认知的有趣角落。这可以与推进 AI 联系起来,但是这条路径非常长。

JULIE KALLINI:这完全是语义的问题,对吧? 就我个人而言,我认为我自己同时从事 NLP、计算语言学和 AI 方面的工作。我确实认为每个领域都有不同的社区,但是有很多人跨越了多个领域。

JUL