Nvidia GPU 路线图确认:摩尔定律已死
Tobias Mann
Sat 29 Mar 2025 // 14:08 UTC
评论称,正如 Jensen Huang 喜欢说的那样,摩尔定律已经死了——并且在本月的 Nvidia GTC 大会上,这位 GPU 大佬的首席执行官透露了这种计算扩展定律究竟埋藏有多深。
在舞台上,Huang 不仅展示了芯片设计商的下一代 Blackwell Ultra 处理器,还出人意料地详细介绍了其未来两代的加速计算平台,包括一个 600kW 的机架级系统,包含 576 个 GPU。我们还了解到,计划于 2028 年推出的即将到来的 GPU 系列将以 Richard Feynman 的名字命名。 真是难以置信!
芯片制造商不时地展示他们的路线图并不罕见,但我们通常不会一次性获得这么多信息。 这是因为 Nvidia 陷入了困境。 它不仅遇到一个障碍,而是几个。 更糟糕的是,除了砸钱之外,这些问题在很大程度上都超出了 Nvidia 的控制范围。
对于那些关注的人来说,这些挑战并不令人意外。 分布式计算一直是一场关于瓶颈的打地鼠游戏,而 AI 可能只是终极的打地鼠游戏。
从这里开始向上和向外扩展
这些挑战中第一个也是最明显的挑战围绕着扩展计算能力。
近年来,工艺技术的进步已经放缓。 虽然仍然有一些可以调整的旋钮,但它们变得越来越难以推动。
面对这些限制,Nvidia 的策略很简单:尽可能地扩大每个计算节点中的硅量。 如今,Nvidia 最密集的系统,或者说是机架,使用其高速 1.8TB/s 的 NVLink 结构将 72 个 GPU 组合到一个计算域中。 然后使用 InfiniBand 或以太网将八个或更多这些机架连接在一起,以实现所需的计算和内存容量。
在 GTC 上,Nvidia 透露 计划将其提升到每个机架 144 个,最终达到 576 个 GPU。 然而,向上扩展不仅限于机架; 它也发生在芯片封装上。
随着一年前 Nvidia 的 Blackwell 加速器的推出,这一点变得显而易见。 这些芯片的性能比 Hopper 提高了 5 倍,这听起来很棒,但直到你意识到它需要两倍的芯片数量、一种新的 4 位数据类型和 500 瓦的额外功率才能做到这一点。
实际上,标准化为 FP16 后,Nvidia 的顶级 Blackwell 芯片仅比 GH100 快约 1.25 倍,密集 teraFLOPS 为 1,250,而 GH100 为 989 — 只是碰巧有两个 Blackwell 芯片而已。
到 2027 年,Nvidia 首席执行官 Jensen Huang 预计,随着 Rubin Ultra NVL576 的推出,机架将飙升至 600kW - 点击放大
我们还不知道 Nvidia 计划在其下一代芯片中使用什么工艺技术,但我们所知道的是,Rubin Ultra 将继续这一趋势,从两个光罩限制的芯片增加到四个。 即使 TSMC 2nm 的效率提高了大约 20%,但这仍然会是一个很热的封装。
不仅仅是计算; 还有内存。 你们当中眼尖的人可能已经注意到 Rubin 到 Rubin Ultra 之间的容量和带宽发生了相当大的飞跃——每个封装 288GB 对比 1TB。 大约一半来自更快、更高容量的内存模块,但另一半来自将专门用于内存的硅量翻倍,从 Blackwell 和 Rubin 上的 8 个模块增加到 Rubin Ultra 上的 16 个模块。
更高的容量意味着 Nvidia 可以将更多的模型参数(在 FP4 中约为 2 万亿)塞入单个封装中,或者每个“GPU” 5000 亿,因为他们现在计算的是单个芯片而不是插槽。 HBM4e 看起来还能有效地将内存带宽提高到 HBM3e 的两倍以上。 预计带宽将从如今每个 Blackwell 芯片约 4TB/s 跃升至 Rubin Ultra 上的约 8TB/s。
不幸的是,除非在工艺技术上取得重大突破,否则未来的 Nvidia GPU 封装可能会包含更多的硅。
好消息是,工艺进步并不是扩展计算或内存的唯一方法。 一般来说,从 16 位降到 8 位精度可以有效地使吞吐量翻倍,同时也将给定模型的内存需求减半。 问题是 Nvidia 正在耗尽用于降低性能提升的位。 从 Hopper 到 Blackwell,Nvidia 降低了 4 位,使硅翻倍,并声称浮点增益为 5 倍。
但是,在低于 4 位精度的情况下,LLM 推理变得非常粗糙,困惑度得分迅速攀升。 也就是说,围绕超低精度量化(低至 1.58 位)同时保持准确性方面,正在进行一些有趣的研究。
并不是降低精度是获得 FLOPS 的唯一方法。 你还可以将更少的芯片面积专用于 AI 工作负载不需要的更高精度数据类型。
我们在 Blackwell Ultra 中看到了这一点。 Nvidia 加速计算业务部门副总裁 Ian Buck 在一次采访中告诉我们,他们实际上降低了芯片的双精度 (FP64) 张量核心性能,以换取 50% 以上的 4 位 FLOPS。
这是否预示着 FP64 即将退出 Nvidia 还有待观察,但如果你真的关心双精度能力,那么 AMD 的 GPU 和 APU 无论如何都应该在你的首选列表中。
无论如何,Nvidia 的前进方向很明确:其计算平台只会变得更大、更密集、更热、更耗电。 正如卡路里不足的 Huang 在上周的新闻问答中说的那样,机架的实际限制是你能够为其提供的功率。
Huang 说:“一个数据中心现在是 250 兆瓦。 这几乎是每个机架的限制。 我认为剩下的只是细节。 如果你说一个数据中心是 1 吉瓦,我会说每个机架 1 吉瓦听起来是一个不错的限制。”
无法逃避的电力问题
当然,600kW 的机架给数据中心运营商带来了一个巨大的难题。
需要明确的是,冷却兆瓦级的超密集计算并不是一个新问题。 Cray、Eviden 和 Lenovo 的人们多年来都弄清楚了这一点。 改变的是,我们谈论的不是每年少量的精品计算集群。 我们谈论的是数十个集群,其中一些集群 如此之大,以至于如果将 200,000 个 Hopper GPU 与 Linpack 绑定能够赚钱,它们将取代 Top500 最强大的超级计算机。
在这种规模下,高度专业化、低容量的散热管理和电力输送系统根本无法满足需求。 不幸的是,数据中心供应商——你知道,那些销售你需要使那些价值数百万美元的 NVL72 机架工作的并不那么性感的零件的人——现在才赶上需求。
我们怀疑这就是为什么到目前为止宣布的许多 Blackwell 部署都是用于风冷的 HGX B200,而不是 Huang 一直在宣传的 NVL72。 这些八个 GPU HGX 系统可以部署在许多现有的 H100 环境中。 Nvidia 已经做了 30-40kW 的机架多年,所以跳到 60kW 并没有那么大的飞跃,而且,降到每个机架两到三个服务器仍然是一个选择。
这就是 Huang 一直喋喋不休的那些“AI 工厂”发挥作用的地方
NVL72 是一种机架级设计,深受具有 DC 母线、电源滑板和前端网络的超大规模厂商的启发。 在 120kW 的液冷计算下,在现有设施中部署多个这些东西会很快变得有问题。 一旦 Nvidia 的 600kW 怪物机架在 2027 年末首次亮相,这种情况只会变得更加困难。
这就是 Huang 一直喋喋不休的那些“AI 工厂”发挥作用的地方——与 Schneider Electric 等合作伙伴合作设计的专用数据中心,以应对 AI 的电力和散热需求。
令人惊讶的是,在详细介绍了未来三年的 GPU 路线图一周后,Schneider 宣布 在美国投资 7 亿美元进行扩张,以提高生产支持它们所需的所有电力和冷却套件。
当然,拥有为这些超密集系统供电和冷却的基础设施并不是唯一的问题。 首先是将电力输送到数据中心,再一次,这在很大程度上超出了 Nvidia 的控制范围。
每当 Meta、Oracle、Microsoft 或其他任何人宣布另一个 AI 比特谷仓时,通常会随之而来一份诱人的购电协议。 Meta 在河口诞生的 mega DC 宣布 与一个 2.2GW 的燃气发电机厂一起——这对那些可持续性和碳中和承诺来说太糟糕了。
尽管我们非常希望看到核能的复兴,但即使是最乐观的预测也将部署时间定在 2030 年代左右,也很难认真对待小型模块化反应堆。
- 仔细了解 Dynamo,Nvidia 用于 AI 推理的“操作系统”
- Microsoft 放弃数据中心租赁(可能)并不是 AI 泡沫破裂的迹象
- Schneider Electric 向美国业务投入 7 亿美元,原因是 AI 数据中心需求激增
- Nvidia 的 Vera Rubin CPU、GPU 路线图规划了 600 kW 超热机架的道路
追随领导者
需要明确的是,这些障碍并非 Nvidia 所独有。 AMD、Intel 以及其他所有争夺 Nvidia 市场份额的云提供商和芯片设计商迟早也会遇到这些相同的挑战。 Nvidia 只是最先遇到它们的公司之一。
虽然这肯定有其缺点,但也使 Nvidia 处于一个独特的地位,可以塑造未来数据中心电力和散热设计的方向。
正如我们前面提到的,Huang 愿意透露其未来三代 GPU 技术并展示其第四代的原因是,希望其基础设施合作伙伴做好准备,以便在它们最终推出时提供支持。
Huang 说:“我向世界传达 Nvidia 未来三四年路线图的原因是,现在每个人都可以进行规划。”
另一方面,这些努力也有助于为竞争芯片制造商扫清道路。 如果 Nvidia 设计了一个 120kW 或现在的 600kW 机架,并且主机托管提供商和云运营商愿意支持它,那么 AMD 或 Intel 现在可以清楚地将同样多的计算能力塞入他们自己的机架级平台中,而不必担心客户会将它们放在哪里。 ®