Tobias Mann Sat 29 Mar 2025 // 14:08 UTC

评论称,正如 Jensen Huang 喜欢说的那样,摩尔定律已经死了——并且在本月的 Nvidia GTC 大会上,这位 GPU 大佬的首席执行官透露了这种计算扩展定律究竟埋藏有多深。

在舞台上,Huang 不仅展示了芯片设计商的下一代 Blackwell Ultra 处理器,还出人意料地详细介绍了其未来两代的加速计算平台,包括一个 600kW 的机架级系统,包含 576 个 GPU。我们还了解到,计划于 2028 年推出的即将到来的 GPU 系列将以 Richard Feynman 的名字命名。 真是难以置信!

芯片制造商不时地展示他们的路线图并不罕见,但我们通常不会一次性获得这么多信息。 这是因为 Nvidia 陷入了困境。 它不仅遇到一个障碍,而是几个。 更糟糕的是,除了砸钱之外,这些问题在很大程度上都超出了 Nvidia 的控制范围。

对于那些关注的人来说,这些挑战并不令人意外。 分布式计算一直是一场关于瓶颈的打地鼠游戏,而 AI 可能只是终极的打地鼠游戏。

从这里开始向上和向外扩展

这些挑战中第一个也是最明显的挑战围绕着扩展计算能力。

近年来,工艺技术的进步已经放缓。 虽然仍然有一些可以调整的旋钮,但它们变得越来越难以推动。

面对这些限制,Nvidia 的策略很简单:尽可能地扩大每个计算节点中的硅量。 如今,Nvidia 最密集的系统,或者说是机架,使用其高速 1.8TB/s 的 NVLink 结构将 72 个 GPU 组合到一个计算域中。 然后使用 InfiniBand 或以太网将八个或更多这些机架连接在一起,以实现所需的计算和内存容量。

在 GTC 上,Nvidia 透露 计划将其提升到每个机架 144 个,最终达到 576 个 GPU。 然而,向上扩展不仅限于机架; 它也发生在芯片封装上。

随着一年前 Nvidia 的 Blackwell 加速器的推出,这一点变得显而易见。 这些芯片的性能比 Hopper 提高了 5 倍,这听起来很棒,但直到你意识到它需要两倍的芯片数量、一种新的 4 位数据类型和 500 瓦的额外功率才能做到这一点。

实际上,标准化为 FP16 后,Nvidia 的顶级 Blackwell 芯片仅比 GH100 快约 1.25 倍,密集 teraFLOPS 为 1,250,而 GH100 为 989 — 只是碰巧有两个 Blackwell 芯片而已。

到 2027 年,Nvidia 首席执行官 Jensen Huang 预计,随着 Rubin Ultra NVL576 的推出,机架将飙升至 600kW - 点击放大

我们还不知道 Nvidia 计划在其下一代芯片中使用什么工艺技术,但我们所知道的是,Rubin Ultra 将继续这一趋势,从两个光罩限制的芯片增加到四个。 即使 TSMC 2nm 的效率提高了大约 20%,但这仍然会是一个很热的封装。

不仅仅是计算; 还有内存。 你们当中眼尖的人可能已经注意到 Rubin 到 Rubin Ultra 之间的容量和带宽发生了相当大的飞跃——每个封装 288GB 对比 1TB。 大约一半来自更快、更高容量的内存模块,但另一半来自将专门用于内存的硅量翻倍,从 Blackwell 和 Rubin 上的 8 个模块增加到 Rubin Ultra 上的 16 个模块。

更高的容量意味着 Nvidia 可以将更多的模型参数(在 FP4 中约为 2 万亿)塞入单个封装中,或者每个“GPU” 5000 亿,因为他们现在计算的是单个芯片而不是插槽。 HBM4e 看起来还能有效地将内存带宽提高到 HBM3e 的两倍以上。 预计带宽将从如今每个 Blackwell 芯片约 4TB/s 跃升至 Rubin Ultra 上的约 8TB/s。

不幸的是,除非在工艺技术上取得重大突破,否则未来的 Nvidia GPU 封装可能会包含更多的硅。

好消息是,工艺进步并不是扩展计算或内存的唯一方法。 一般来说,从 16 位降到 8 位精度可以有效地使吞吐量翻倍,同时也将给定模型的内存需求减半。 问题是 Nvidia 正在耗尽用于降低性能提升的位。 从 Hopper 到 Blackwell,Nvidia 降低了 4 位,使硅翻倍,并声称浮点增益为 5 倍。

但是,在低于 4 位精度的情况下,LLM 推理变得非常粗糙,困惑度得分迅速攀升。 也就是说,围绕超低精度量化(低至 1.58 位)同时保持准确性方面,正在进行一些有趣的研究。

并不是降低精度是获得 FLOPS 的唯一方法。 你还可以将更少的芯片面积专用于 AI 工作负载不需要的更高精度数据类型。

我们在 Blackwell Ultra 中看到了这一点。 Nvidia 加速计算业务部门副总裁 Ian Buck 在一次采访中告诉我们,他们实际上降低了芯片的双精度 (FP64) 张量核心性能,以换取 50% 以上的 4 位 FLOPS。

这是否预示着 FP64 即将退出 Nvidia 还有待观察,但如果你真的关心双精度能力,那么 AMD 的 GPU 和 APU 无论如何都应该在你的首选列表中。

无论如何,Nvidia 的前进方向很明确:其计算平台只会变得更大、更密集、更热、更耗电。 正如卡路里不足的 Huang 在上周的新闻问答中说的那样,机架的实际限制是你能够为其提供的功率。

Huang 说:“一个数据中心现在是 250 兆瓦。 这几乎是每个机架的限制。 我认为剩下的只是细节。 如果你说一个数据中心是 1 吉瓦,我会说每个机架 1 吉瓦听起来是一个不错的限制。”

无法逃避的电力问题

当然,600kW 的机架给数据中心运营商带来了一个巨大的难题。

需要明确的是,冷却兆瓦级的超密集计算并不是一个新问题。 Cray、Eviden 和 Lenovo 的人们多年来都弄清楚了这一点。 改变的是,我们谈论的不是每年少量的精品计算集群。 我们谈论的是数十个集群,其中一些集群 如此之大,以至于如果将 200,000 个 Hopper GPU 与 Linpack 绑定能够赚钱,它们将取代 Top500 最强大的超级计算机。

在这种规模下,高度专业化、低容量的散热管理和电力输送系统根本无法满足需求。 不幸的是,数据中心供应商——你知道,那些销售你需要使那些价值数百万美元的 NVL72 机架工作的并不那么性感的零件的人——现在才赶上需求。

我们怀疑这就是为什么到目前为止宣布的许多 Blackwell 部署都是用于风冷的 HGX B200,而不是 Huang 一直在宣传的 NVL72。 这些八个 GPU HGX 系统可以部署在许多现有的 H100 环境中。 Nvidia 已经做了 30-40kW 的机架多年,所以跳到 60kW 并没有那么大的飞跃,而且,降到每个机架两到三个服务器仍然是一个选择。

这就是 Huang 一直喋喋不休的那些“AI 工厂”发挥作用的地方

NVL72 是一种机架级设计,深受具有 DC 母线、电源滑板和前端网络的超大规模厂商的启发。 在 120kW 的液冷计算下,在现有设施中部署多个这些东西会很快变得有问题。 一旦 Nvidia 的 600kW 怪物机架在 2027 年末首次亮相,这种情况只会变得更加困难。

这就是 Huang 一直喋喋不休的那些“AI 工厂”发挥作用的地方——与 Schneider Electric 等合作伙伴合作设计的专用数据中心,以应对 AI 的电力和散热需求。

令人惊讶的是,在详细介绍了未来三年的 GPU 路线图一周后,Schneider 宣布 在美国投资 7 亿美元进行扩张,以提高生产支持它们所需的所有电力和冷却套件。

当然,拥有为这些超密集系统供电和冷却的基础设施并不是唯一的问题。 首先是将电力输送到数据中心,再一次,这在很大程度上超出了 Nvidia 的控制范围。

每当 Meta、Oracle、Microsoft 或其他任何人宣布另一个 AI 比特谷仓时,通常会随之而来一份诱人的购电协议。 Meta 在河口诞生的 mega DC 宣布 与一个 2.2GW 的燃气发电机厂一起——这对那些可持续性和碳中和承诺来说太糟糕了。

尽管我们非常希望看到核能的复兴,但即使是最乐观的预测也将部署时间定在 2030 年代左右,也很难认真对待小型模块化反应堆。

追随领导者

需要明确的是,这些障碍并非 Nvidia 所独有。 AMD、Intel 以及其他所有争夺 Nvidia 市场份额的云提供商和芯片设计商迟早也会遇到这些相同的挑战。 Nvidia 只是最先遇到它们的公司之一。

虽然这肯定有其缺点,但也使 Nvidia 处于一个独特的地位,可以塑造未来数据中心电力和散热设计的方向。

正如我们前面提到的,Huang 愿意透露其未来三代 GPU 技术并展示其第四代的原因是,希望其基础设施合作伙伴做好准备,以便在它们最终推出时提供支持。

Huang 说:“我向世界传达 Nvidia 未来三四年路线图的原因是,现在每个人都可以进行规划。”

另一方面,这些努力也有助于为竞争芯片制造商扫清道路。 如果 Nvidia 设计了一个 120kW 或现在的 600kW 机架,并且主机托管提供商和云运营商愿意支持它,那么 AMD 或 Intel 现在可以清楚地将同样多的计算能力塞入他们自己的机架级平台中,而不必担心客户会将它们放在哪里。 ®