We Can, Must, and Will Simulate Nematode Brains

Michael Skuhersky

科学家们花费了超过 25 年的时间尝试——但都失败了——去构建我们所知的最小大脑的计算机模拟。今天,我们终于拥有了实现这一目标所需的工具。

一个近乎完美的人脑模拟将会对人类产生深远的影响。它可能会为我们提供一条超越生物学局限性的途径,这些局限性一直制约着人类的潜力,并能实现难以想象的新的智能、创造力和探索形式。这代表着人类进化的下一个阶段,将我们的认知和记忆从有机结构的限制中解放出来。

不幸的是,这还有很长的路要走。人脑包含大约一千亿个神经元——由高达一千兆个突触相互连接。对这个庞大的网络进行逆向工程,需要的计算资源远远超过目前可用的资源。因此,寻求全脑模拟概念验证的科学家们不得不转向更简单的模式生物。而迄今为止最简单的大脑——仅有 300 个神经元——属于线虫 Caenorhabditis elegans

25 年多来,科学家们一直在以某种形式研究模拟 C. elegans 的问题。到目前为止,他们收效甚微。但是,凭借今天的技术,这项任务终于成为可能,而且——正如我将论证的那样——是必要的。

C. elegans 的运动模式。来源:Hiroshima University, Osaka University

线虫大脑简史

生物学家 Sydney Brenner 在 20 世纪 70 年代开始对 C. elegans 作为发育生物学的模式生物感兴趣。它的简单性和小尺寸使其成为理想的实验室对象。1986 年,Brenner 研究小组的科学家 John C. White 绘制了一张几乎完整的神经连接图,这些神经连接构成了 C. elegans 大脑——科学家们现在称之为连接组(connectome)。随着计算机变得越来越普及,其他科学家开始在 Brenner 的工作基础上进行构建。Ernst Neibur 和 Paul Erdös 在 1991 年推出了线虫运动的生物物理模型,拉开了序幕。两个不同的团队(一个在 the University of Oregon,另一个在 Japan)在 20 世纪 90 年代末发布了构建更雄心勃勃的模型的计划。两者都将利用 White 在神经回路方面的工作。不幸的是,两者都没有启动。

2004 年,Hiroshima University 的 Virtual C. elegans 项目取得了一些进展:他们发布了两篇 论文,描述了他们的模型,该模型模拟了线虫的运动控制电路。模拟的线虫可以对头部上的虚拟戳击做出反应,但它没有做太多其他事情。甚至这,可以说,也不是一个真正的模拟。尽管研究人员有一个线虫神经元的地图,但他们不知道其内在的生物物理参数——即它们之间连接的精确电气特性。相反,研究人员使用机器学习为每个神经元生成一组值,使得他们的模拟线虫像真正的线虫一样对戳击做出反应。因此,这种方法并非完全基于生物学现实——这是一个反复出现的主题,在未来的几次模拟尝试中都会浮出水面。

这就是 2010 年代初的情况。虽然模拟线虫运动的工作 仍在继续,但在模拟线虫的大脑方面没有进展——更不用说逼真的大脑了。然后,在 2010 年 1 月 1 日,工程师 Giovanni Idili 在 Whole Brain Catalogue 的官方账户上发布了一条推文,该项目旨在整合来自小鼠大脑的数据:“新年决心:模拟整个 C.Elegans 大脑(302 个神经元)!” U.C. San Diego 神经科学研究生 Stephen Larson 注意到了这条推文,到了八月,Larson 已经在会议上宣传这个想法了。到 2011 年初,Larson 和 Idili 已经组建了一个团队,开始研究后来成为 OpenWorm 项目的项目——一个由学术界分散的团体共同努力,旨在创建一个完整的、逼真的和开源的 C. elegans 模型。

这是一个令人兴奋的模拟极小大脑的时代。在接下来的几年里,OpenWorm 发表了一系列论文和模型更新。2013 年,他们在巴黎举办了他们的第一次会议,并在 The Atlantic 上发表了一个乐观的故事(标题:“[这个虚拟蠕虫是奇点出现的第一个迹象吗?](https://asteriskmag.com/issues/09/https:/www.theatlantic.com/technology/archive/2013/05/is-this-virtual-worm-the-first-sign-of-the-singularity/275715/)”)。与此同时,研究人员 David Dalrymple 正在 MIT 进行一个名为 Nemaload 的并行项目。OpenWorm 科学家主要使用来自死亡线虫的数据,但 Dalrymple 想要使用当时新的光遗传学技术来研究活体标本。光遗传学允许科学家用光控制神经元和其他细胞。在这种情况下,该技术可以用来收集关于线虫大脑如何对不同状态做出反应的数据,方法是成千上万次地扰乱它。在 2011 年 LessWrong 上的一个评论中,Dalrymple 写道:“如果这在 2020 年仍然是一个悬而未决的问题,我会感到非常惊讶,无论这有什么价值。”

现在是 2025 年,线虫模拟仍然是一个悬而未决的问题。Dalrymple 在 2012 年放弃了 Nemaload。OpenWorm 仍然存在,但在过去十年中,由于缺乏可用数据,在创建真正科学的全脑模拟方面没有取得实质性进展。偶尔,会发表更现代的(尽管仍然严重依赖假设的)模拟,包括努力减少假设的综合模型。我们并没有完全回到 2010 年代的状态:我们有关于 C. elegans 神经系统的更好的数据,并且——正如我将在后面讨论的那样——有更好的工具来研究它。但我们离模拟整个大脑并没有更近一步。

出了什么问题?为什么花了 25 年多的时间来构建人类已知的最简单大脑之一的工作计算机模拟?更重要的是,为什么我认为这次我们真的可以做到?

我们为什么被困住

在解释发生了什么之前,我们应该问一个更根本的问题:成功模拟大脑意味着什么?这是一个需要明确具体的话题。“模拟”一词在学术神经科学中经常唤起 Human Brain Project 的臭名昭著的失败。2013 年,神经科学家 Henry Markram 从欧盟获得了约 10 亿欧元,用于“模拟人脑”——即使在当时,这一提议也被广泛认为是不现实的。该项目面临重大挑战,最终未能实现其雄心勃勃但又模糊的目标。这些事件给大脑模拟研究蒙上了一层阴影,使得该领域的从业者尤其需要设定更清晰、更现实的目标,并制定具体的里程碑。

什么构成好的模拟本身就是一个争论的话题,所以我只分享我的观点:一个好的神经系统模拟,既能准确地复制其功能,又能可靠地预测真实系统在相同初始条件下的未来活动。也就是说,模拟培养皿中的模拟线虫的行为应该与真实培养皿中的真实线虫的行为相同。如果我们扰乱模拟——例如,通过戳击或照射光线——它应该以与真实线虫相同的方式做出反应。并且它应该随着时间的推移继续像真正的线虫一样行动,而不是随着时间的推移积累更多的错误。

这个定义可以帮助我们阐明什么是模拟,什么不是。去年十月,一个由 127 个机构的科学家组成的联盟发布了果蝇 Drosophila melanogaster完整连接组。从任何客观标准来看,这都是一项巨大的成就:这是继 C. elegans 之后组装的第二个完整的连接组,包含超过 140,000 个神经元(相比之下,C. elegans 只有 300 个)。该项目名为 FlyWire,其成功重新燃起了人们对大脑模拟的兴趣。而且,从某种意义上说,FlyWire 连接组可以用来模拟果蝇。当该项目的研究人员 Philip Shiu 测试性地“激发”负责感知糖的神经元时,该模型预测,延伸果蝇喙的其他神经元也会激发,就像在真正的果蝇中一样。此后,其他研究人员使用 Shiu 的模型来准确预测与果蝇的味觉、梳理和运动相关的神经模式。

Shiu 的模型代表了我们对果蝇大脑理解的重要进步,但它并不是真正的模拟。(它也没有试图成为;Shiu 本人已经明确表示该模型非常简化,并且对控制神经元行为的关键参数做出了假设)。虽然该模型可以成功预测特定神经元组的行为,但它不能模仿整个果蝇大脑的确切功能。那是因为 FlyWire 模型缺少与 OpenWorm(以及其他模拟线虫的尝试)相同的东西:关于神经结构和神经功能之间关系的良好数据。

将连接组视为大脑的地图。它可以告诉我们神经元如何通过电突触和化学突触相互连接。但是,尽管揭示了哪些神经元相互连接,但它并没有告诉我们这些连接是如何工作的。要完全模拟大脑,我们需要了解控制每个神经元行为的生物物理参数。这不仅包括突触的可变强度(在神经科学中,这些被称为权重),还包括细胞的膜特性,例如电容以及树突和轴突的形状,这些都会影响电信号的传播。我们需要知道神经元的激发阈值,以及该阈值如何随着动物学习新事物而变化(学习涉及突触权重和神经元自身属性的变化)。仅基于静态连接组的模拟无法学习——因此它的行为不会很像它试图模拟的真实生物。

不幸的是,学习活体大脑的动态生物物理特征比理解其结构要困难得多(正如我们所见,这已经足够困难了)。用于绘制连接组的主要技术是电子显微镜。因为电子的波长比可见光小一百万倍,所以它们可以用来产生比光学显微镜更高分辨率的图像。但是电子显微镜有一个严重的缺点。它只能用于切片的脑组织,因此它无法告诉我们活体大脑如何对刺激做出反应或随时间推移如何变化。该技术可以为我们提供非常详细、高质量的图像,但无法告诉我们神经元的电气特性,例如其突触的强度或其膜如何存储电荷。

几十年来,了解这些事情的唯一方法是通过一种称为膜片钳的技术。膜片钳的优点是它非常准确。缺点是它需要将电极费力地放置在每个单独的神经元上。经过努力,可以同时钳住大约三个神经元,这使得它成为捕获整个大脑神经活动信息的理想选择。

这就是早期模拟 C. elegans 的尝试停滞不前的原因。这是一个时间问题:在 2013 年,可以让我们了解神经元内部发生的事情的工具要么不存在,要么还没有准备好投入实际使用。

看到的新方法

C. elegans 模拟研究失去动力时,其他研究人员在提高观察细胞的能力方面取得了进展。首先,光学显微镜的进步使得捕获活细胞的快速、相对清晰的图像成为可能,而不会破坏它们。自 20 世纪 50 年代末以来,生物学家一直依赖于共聚焦显微镜,该显微镜使用一个微小的针孔来阻挡离焦光。这会产生更高分辨率的图像,但该方法也很慢,因为捕获整个样本意味着逐点扫描它。这对于研究快速变化的特征(如神经元活动)来说是一个严重的问题。这就是现代技术(如光片显微镜)特别有用的地方。光片显微镜不是通过一个点聚焦光,而是使用激光片来照射样本的整个 2D 横截面。与传统的共聚焦方法相比,该过程显着更快,并且对组织的损伤更小。

光片显微镜自 20 世纪 90 年代就已存在,但该技术的早期版本难以捕获快速的细胞内过程。这种情况随着 2010 年代初期的一系列创新而发生了变化。首先,开发了新技术,可以在衍射极限以下进行光学显微镜观察(衍射极限是光学系统仍可以区分两个点之间的最小距离)。对于可见光,该距离在 200 到 250 纳米之间——太大了,无法区分大多数细胞特征。这种情况随着超分辨率显微镜的推出而发生了变化,其分辨率为 100 纳米及以下。另一个重大进展是 DiSPIM,1 于 2014 年发明。在光片显微镜中,照射图像的光必须垂直于拾取图像的相机。最初,这意味着相机和光片是单独组件的一部分。DiSPIM 显微镜使用两个垂直的透镜组件,每个都配备了光源和相机。这种方法使显微镜捕获活体样本图像的速度提高了一倍,并确保图像可以以相同的分辨率在所有三个维度上重建。2015 年,Columbia University 的一个小组开发了一种名为 SCAPE 的方法,2 该方法使用倾斜的光片来扫描和成像使用单个透镜组件的样本。SCAPE 比早期的光片技术更快,使其特别适用于跟踪快速的神经元活动。

另一组创新与显微镜正在观察的东西有关。我们讨论的所有方法都依赖于荧光报告蛋白——工程蛋白,在某些条件下(例如,特定蛋白质的存在或特定基因的表达)会发出荧光。在我们的例子中,该触发器是钙。当神经元激发时,钙离子会涌入细胞,从而使钙流入成为神经元活动的可靠代理。这里的关键突破是 Janelia Research Campus 的一个团队在 2013 年至 2015 年之间开发的 GCaMP6 系列报告蛋白。这种新一代钙指示剂比早期版本更亮、更灵敏,迅速成为活体生物成像神经元回路的首选工具。虽然 GCaMP6 彻底改变了基于钙的成像,但更精确的测量结果可能来自直接响应电压的荧光报告蛋白。这些已经存在于较大的生物体中,并且正在积极开发用于 C. elegans

今天,钙成像和 DiSPIM 和 SCAPE 等显微镜技术的结合意味着我们可以实时看到神经元在整个 C. elegans 大脑中的行为。下一个挑战是实际做到这一点。并且要多做一些。自 White 在 1986 年进行的开创性工作以来,我们对 C. elegans 连接组的理解已大大提高。White 的连接组是五只个体蠕虫的集合。但是,不同动物中的相同神经元的大小或电荷容量可能不同。为了充分了解 C. elegans 大脑及其在各种行为中的运作方式,我们需要从数千个个体收集数据。

还有一个问题是,一旦我们有了数据,该怎么办。这是最近的进步——这次是在机器学习领域——使得该过程更加可行的另一个领域。尽管 C. elegans 大脑具有生物复杂性,但它仍然只包含 300 个神经元——与最先进的大型语言模型相比,微不足道。使用符号回归,一种用于发现解释观察到的数据的数学公式的机器学习技术,我们可以获取关于神经元活动的数据,并使用它来推导出关键参数,例如每个神经元的电容和突触强度以及每个神经元连接。这些方程可能类似于科学家已经从膜片钳实验中得出的生物物理模型,但直接从全脑数据推断得出。

鱼、苍蝇和更远的地方

我并不是想暗示构建精确的 C. elegans 模拟很容易。我所描述的技术可能无法考虑许多因素,从突触外信号传导到特定神经元形态的作用(更不用说神经元和突触在线虫的一生中发生变化的事实)。但是,凭借现代技术,这些技术不断快速改进,我确实相信这是可能的。

而且,如果我们想有一天构建更大动物(包括人类)的模拟,我也认为这是必要的。让我们观察活体生物神经元活动的光学显微镜技术有一个关键限制:深度。光只能穿透到组织中。使用当前技术,该限制约为 750 微米,略小于一毫米。要构建精确的全脑模拟,我们需要来自整个大脑的活动数据——这意味着我们目前仅限于深度小于一毫米的大脑。换句话说,C. elegans、幼虫斑马鱼和果蝇的大脑是我们唯一的选择。通过研究小型生物,我们可以开发新的方法,使我们能够通过观察大脑的结构和其他间接形式的数据来预测神经活动。这些技术将使我们能够对更复杂的大脑进行建模,包括那些太大而无法直接对其活动进行成像的大脑。

我的研究重点是通过将这些最新开发的显微镜、荧光报告蛋白和机器学习方法集成到一个有凝聚力的流程和方法框架中,来创建 C. elegans 的科学模拟。这个想法是创建一个经过验证的模拟创建蓝图,然后可以将其应用于更复杂的大脑。但是,成功模拟 C. elegans 本身将是一项非凡的科学成就。更重要的是,它将帮助我们开始破译大脑的结构如何与其内部展开的动态过程相关联。随着时间的推移,这种理解将打开模拟更复杂生物体(最终包括人类)的大门。我们还有很长的路要走,但现在是开始的最佳时机——迅速而果断,并制定易于处理、定义明确的里程碑。