Asimov Press

Asimov Press

打造 AI 科学家的幕后推手

深入了解位于旧金山的非营利研究机构 FutureHouse。

Asimov Press 2025年3月19日

分享此文章

Asimov PressAsimov PressMeet the Humans Building AI Scientists

在旧金山 Dogpatch 社区的工业区内,一只乌鸦振翅起飞。这只懂得使用工具的鸦科动物是 FutureHouse 的吉祥物,这家非营利组织致力于利用 AI 智能体来自动化科学发现,这些智能体可以生成假设、连接现有发现,甚至可以提出实验建议。

自两年前成立以来,FutureHouse 稳步推出了一系列以“crow”为主题的研究工具。ChemCrow 帮助设计和执行化学反应。WikiCrow 通过利用数千篇论文,汇编了人类蛋白质的百科全书式摘要,包括它们的结构和已知功能。ContraCrow 筛选文献以查找相互矛盾的主张。PaperQA 及其后续版本 PaperQA2 允许用户查询 PDF 文件,并获得可靠的答案,而不会产生“幻觉”式的错误信息。LAB-Bench 是他们的基准测试套件,用于衡量这些智能体处理现实生物学任务的能力。而 Aviary 是一款专门设计“使语言模型能够访问与人类研究人员相同的工具”的软件,它使开源 LLM 仅需“适度的计算预算”,即可在两个 LAB-Bench 任务上“超越人类水平的性能:进行科学文献研究和推理 DNA 结构”。

尽管这些工具的用途各不相同,但每个工具都围绕着一个共同的原则:让 AI 系统阅读并 推理 生物学数据,以加速发现。

FutureHouse 对科学文献的关注也并非偶然。CEO Sam Rodriques 长期以来一直对出版业的状况表示不满,他写道“生物医学文献浩如烟海,并存在三个问题:它不适合在教科书中进行总结;它通过委托变得不可靠;并且它因遗漏而变得不可靠。” 许多其他科学家也持有类似的观点。

Allen Institute for AI 早在 2015 年就推出了 Semantic Scholar;它是最早使用机器学习而不是原始引用计数来对研究相关性进行排名和预测的平台之一。于 2023 年秋季推出的 Elicit 通过口碑获得了 20 万用户;它承诺提供“一键式文献综述”,在受控测试中,研究人员筛选论文的时间减少了一半。与此同时,OpenAI 的“Deep Research” 现在为从总结期刊文章到生成实验设计等任务提供自动化辅助。

虽然这些工具使我们更接近于无摩擦访问生物学知识的理想状态,但 FutureHouse 的目标更高。该团队不仅希望简化对科学文献的访问,还希望挖掘文献中未开发的科研方向——可能导致突破的“未知的未知”。他们十年的任务是为科学构建半自主 AI,从探索基因变异的预测模型到有一天可以独立运行整个实验的人形机器人。

为了更多地了解 FutureHouse 的雄心壮志,我们与联合创始人 Sam Rodriques 和 Andrew White 进行了座谈。

FutureHouse 的联合创始人 Andrew White 和 Sam Rodriques。

你们的很多工具都提到了乌鸦。这是怎么回事?

White: 当我在 2022 年 10 月左右开始涉足这个领域时,我正在用 GPT4 进行红队测试。大约在同一时间,一篇名为“Language Models are Stochastic Parrots”的论文广为流传,人们正在争论这些模型是否只是在鹦鹉学舌式地重复它们的训练数据,还是在真正地进行推理。这个类比很有吸引力,而且鹦鹉确实以模仿语音而闻名。但我们看到的是,将这些语言模型与外部工具 结合 起来,使它们变得更加准确——有点像乌鸦,可以使用工具来解决难题。

例如,在导致 ChemCrow 的工作中,我们发现,让大型语言模型访问计算器或化学软件会使其答案更好。因此,我们进行了一点修改,使“Crows”成为可以使用自然语言与工具交互的智能体。

FutureHouse 成立两年多了。当你们最初开始构建 AI 科学家的征程时,你们认为哪些事情会很简单?哪些问题结果证明出乎意料地困难?

Rodriques: 我在考虑制造 AI 科学家时(这比 ChatGPT 在 2022 年 9 月问世还要早一点),我做的第一件事就是弄清楚哪些对人类来说很容易,哪些任务对 AI 模型来说很容易。一个很好的例子是翻汉堡;这对人类来说相对容易,但对机器人来说却相当困难。另一方面,解决数学证明似乎对 AI 模型来说更容易,而对人类来说更难。

实际上,我们发现困难的一件事是为这些智能体创建基础设施,并让他们访问数据和各种网络资源。我们和其他许多人一样,对这些模型在认知工作方面的容易程度感到惊讶;它们在假设生成和得出结论方面都非常出色。

White: 实际上,我认为大多数事情都会很困难。但事实证明,一些最困难的事情与 AI 无关。工程和生产工作出乎意料地困难。从 Jupyter notebook(用于编写 Python 代码)中的演示到获得可以在规模上运行的东西,需要大量工作。

在 2023 年 1 月,PaperQA 运行得非常好,但与人类的得分相比并不高;该模型仅达到人类水平的一半左右。但是,当我们添加了更好的解析,并构建了更好的工具来查找开放获取论文时——甚至没有对算法本身进行任何突破——PaperQA 的性能几乎翻了一番。这花了大约一年的时间。

制作 WikiCrow(我们为人类基因组中的每个蛋白质编码基因编写维基百科文章)也是一项繁重的工程工作。我们编写了 20,000 篇文章,每篇文章由五个 PaperQA 调用组成。总共进行了 100,000 次调用。因此,最具挑战性的事情之一是让它在合理的时间内运行。

构建你们的 AI 智能体还需要哪些类型的数据?

Rodriques: 数据现在当然是一个限制因素。我们需要更好、更多关于人类如何进行科学研究的数据,包括人们实际谈论它的方式的录音。我们几乎没有这类数据,但它对于构建人类水平的 AI 科学家至关重要。

FutureHouse 总部内部的实验室。

我们如何信任您正在构建的智能体提供可靠的信息?毕竟,一个说话足够权威的人,即使他们的知识存在差距,也能够说服专家。

Rodriques: 这是一个很好的问题。就像你与人交谈时,他们告诉你该怎么做,而且他们听起来非常权威——你作为一名科学家需要去思考它,看看它是否正确。那些不经思考就信任模型的人,可能也是那些不质疑就信任其他人的人。人们需要在合理的时候保持批判性和怀疑态度。

我乐观地认为,AI 科学家将有助于提高整体的可重复性。你是否做了你所说的实验?你是否以一种可以报告的方式记录了所有的变量?显然,如果有人在捏造东西,那么模型检测起来和人类一样困难。

另一种可重复性,我预计会更常见,那就是数据是真实的,但你以某种方式分析了它,从而使你的假设无效。这里有一个例子:

假设你对你的数据进行了 20 次分析,直到你找到一个 p 值小于 0.05 的分析。这是我们正在构建的智能体非常有用的地方。你可以对智能体说:“嘿!这里有一些带有分析的论文,请在这些数据上重现它。” 它应该能够访问数据并运行分析,以告诉你它是否可以重现。而且它应该能够运行其他 20 个分析。如果你可以系统地大规模运行数据分析,那么 p-hacking 就不再是一个问题。你不必报告 100 个测试中的一个 p 值,而是运行 100 个分析并创建一个 p 值分布。p 值分布可以告诉你更多关于数据的信息,特别是如果你知道这些统计测试与单个测试相比的相关程度。

你们的自主科学智能体在与科学文献相关的任务中是如何评估的?它们与人类科学家相比如何?

White: 我们制作了 LitQA,因为我们需要一些自动且快速的东西,以便我们可以快速迭代。它就像 250 个非常困难的问题。人类的得分约为 67%,而我们最新的模型得分为 90%。所以我们远高于人类——他们是博士级别的专业生物学家,他们接受报酬来回答问题,并且有动力做得好。当然,这并不代表真正的科学,它更像是问答游戏。我们让 WikiCrow 在将它们配对并进行盲法评估之前编写维基百科文章。这是一个很好的例子,说明了我们如何通过问答游戏进行训练,但最终在常识方面超越了人类。

然而,作为一个组织,我们希望衡量我们在新科学发现方面的表现。这就像我们的五年 KPI。当 PaperQA 被集成并为发现做出贡献时,我们就会知道它运行良好。归根结底,随着这些模型越来越接近人类,我们将像评估人类一样评估它们。例如,什么造就了一个好的博士生?他们提出好的想法,正确地确定范围,推动进步,并撰写关于它们的论文。最终我们将以这种方式评估这些模型。但就像根据成绩或一年级考试来评估博士生很困难一样,在我们将这些模型放入实验室并看看它们能想出什么之前,我们不会知道它们有多好。

FutureHouse 是一个非营利研究机构,但你们不是一个 Focused Research Organization (FRO)。这有什么区别?你们是否预见到未来会成立一家营利性分支机构?

Rodriques: 我认为在某个时候,我们所做的东西会有如此大的商业需求,以至于你必须剥离一家营利性公司。非营利组织剥离营利性公司是很常见的。大学一直在这样做。

FRO 是非营利组织,旨在解决对学术界来说太大,但又不能以营利性方式完成的项目。从这个意义上说,我们非常像 FRO。但不同之处在于,当我们第一次写下 FRO 模型时,我们指定了关于 FRO 如何运作的一些事情,这些事情并不适用于 FutureHouse,以便让某些资助者接受它。FRO 的资助期限为五年,我们要求以特定的规模进行资助。他们真的应该以里程碑为导向。当我们刚开始时,构建 AI 科学家的想法是一个新的、模糊的想法。我们现在对这意味着什么有了更好的了解。

但在当时,我们很难为 FutureHouse 写出明确的里程碑或目标,因为我们不知道会发生什么。所以现在,我们的资助不限于五年,而且我们与 FRO 相比以不同的方式获得资助。这种结构使我们能够保持灵活。

人们对你们的工作有哪些误导性的假设?

Rodriques: 许多人假设我们专注于湿实验室自动化。当然,那里有很多机会,我们正在探索它们,但最大的机会实际上是在认知方面。

我们也面临着许多生物安全假设。有一个群体非常关心生物安全,有些人认为我们正在构建的东西会很危险。我想强调的是,从根本上说,在生物学中,你必须把东西带到世界上。生物安全始终是一个具有挑战性的问题,因为我们的目标是操纵人类生物学来治愈疾病。如果你可以操纵生物学,你也可以创造非常危险的东西。我们对此进行了大量思考。

在将事物带入世界方面:你们的湿实验室自动化工作进展如何?

Rodriques: 正如我所说,这不是我们工作的重点。但是 AI 模型在它方面会比我们做得更好,尤其是在你有高通量湿实验室自动化的案例中。作为一名进行湿实验室工作的人类科学家,最困难的事情往往只是记住同时测试的数十种不同的实验条件。——但这就是这些 AI 系统设计的目的。

我们感兴趣的是构建位于实际实验之上的认知层。一旦你有一个你想测试的实验,就会有既定的方法——比如实验设计——来定义参数空间并帮助决定要测试什么。

换句话说,今天 AI 真正特别的地方在于——使用语言模型——我们将能够将 AI 应用于结构不良的空间。当你在一个结构良好的空间中,比如蛋白质序列、DNA 序列的结构,甚至是化学浓度等定义的实验空间,你可以使用许多经典的 AI 方法来训练基础模型或贝叶斯优化。但是当你在一个定义不明确的空间中,比如在自然语言中,假设可以探索任何可以想象的东西,传统方法就不是很有效。这就是为什么革命真的来自于能够将 AI 应用于那些结构不良的空间。

最近的一条推文 中,你展示了一个坐在你总部沙发上的人形机器人。为什么你要使用人形机器人而不是专门为生物学设计的更传统的机器人?

Rodriques: 在自动化生物学方面,一次性实验和大规模运行实验之间存在一个关键区别。每种情况所需的工具非常不同。

想象一下你正在制造一辆汽车。有两种不同的制度:要么你处于“我以前从未制造过汽车,我想制造一辆”的制度,要么你处于“我以前制造过汽车,但我想制造 10 万辆”的制度。如果你想生产 10 万辆汽车,你需要建造一条装配线,其中包含一堆专门设计的机器人,每个机器人只做一件事。如果你想改变车轮的尺寸,你将不得不扔掉一些机器人。天啊,如果你突然想制造一架直升机,那就没机会了,对吧?

如果你想做“我以前从未制造过汽车”这件事,你什么都不要做。你不要买一堆机器人。你买一个机械车间,然后你制造一辆一次性的汽车。当你谈论基础发现研究时,它只是一堆一次性实验——想象一个研究生第一次做每一个实验,并提出了一个惊人的发现。这就是我们想要自动化的科学类型,它与庞大的机器人系统不兼容。我们现在所做的大部分工作是人类设计和执行实验,所以下一步是 AI 协助这些人类,未来是由 AI 指导的通用机器人。我们对人形机器人感兴趣,因为它们更接近于我们想要模仿的实验类型。

Sam,在你的其中一篇论文中,你写到了实验室自动化有多么困难,部分原因是机器人无法适应意外情况。你在你的实验室里发现,一个损坏的垫圈正在将一种化学物质渗入你的细胞培养物中——你的团队并不知道——这会干扰结果。机器人将来能够诊断和解决此类问题吗?

Rodriques: 使用机器人运行湿实验室实验最终是一个感知问题。人类感知事物的能力非常好。生物学的大部分内容都是有一个管子,你以正确的方式倾斜它,使其对着光,这样你就可以看到它的内容。试着让一个带摄像头的机器人来做这件事。这很难。如果你不能像那样感知,那么像化学物质渗入实验这样的事情就很难被检测到。

人类的感觉运动功能比人类的认知进化得更多。感觉运动功能自寒武纪以来一直在进化。那是 5 亿年前的事。相比之下,人类意义上的认知已经进化了几百万年。在我们拥有像人类一样出色的机器人和感觉系统之前,AI 模型将达到人类的认知水平,这并不奇怪。

好的,最后一个问题。你们是如何让科学家们获得你们的工具的?你们是如何发展你们的用户社区的?

Rodriques: 我们仍在试图弄清楚这一点。首先要认识到的是,我们的使命是自动化科学研究和扩展科学研究。这是核心目标。我们的想法不是创建生产力工具,但我们希望确保我们不断构建,而不是最终陷入商业化周期。我们不希望我们正在构建的技术的质量受到商业化的影响,这就是我们作为非营利组织运营的原因。

该计划是最终推出一个平台,供人们使用我们的工具。但在可预见的未来,北极星仍然专注于构建更有能力的智能体,因为价值最终来自那里。

White: 最终目标是拥有一个平台,以足够好的规模运行科学情报,以便能够处理所有基因、所有蛋白质、所有疾病。

Bryan Duoto 采访。Xiaofan Fang 摄影。 为了简洁和清晰起见,本文经过了编辑。 引用: Duoto, B. "Meet the Humans Building AI Scientists." Asimov Press (2025). DOI: 10.62211/42py-87gh 主图由 Ella Watkins-Dulaney 拍摄。 1 一种规划和执行化学合成步骤的大型语言模型。它于 2023 年 4 月预印,并于 2024 年 5 月发布