Ironwood: The first Google TPU for the age of inference
Ironwood:面向推理时代的 Google 首款 TPU
[以下跳过主内容链接]
[以下跳过无意义的链接]
Ironwood: The first Google TPU for the age of inference
[以下跳过社交媒体分享链接]
- [以下跳过导航栏链接]
通用总结
Google 发布了第七代 Tensor Processing Unit (TPU)——Ironwood,专为推理而设计。这款强大的AI加速器旨在处理“思考模型”(如大型语言模型和混合专家模型)的大规模计算需求。Ironwood 可扩展至 9,216 个芯片,提供 42.5 Exaflops 的计算能力,使其比世界上最大的超级计算机还要强大。
总结由 Google AI 生成。生成式AI为实验性的。
要点
- Google 推出了第七代 TPU——Ironwood,专为推理而设计。
- Ironwood 是 Google 最强大、能效最高的 TPU,旨在支持“推理时代”。
- 它可以扩展到 9,216 个芯片,提供的计算能力是世界上最大的超级计算机的 24 倍以上。
- Ironwood 具有增强的 SparseCore、增加的 HBM 容量和带宽以及改进的 ICI 网络。
- 这种新的 TPU 使 Google Cloud 客户能够以高性能和高效率处理要求苛刻的 AI 工作负载。
总结由 Google AI 生成。生成式AI为实验性的。
莎士比亚风格
Google 带来了新的 TPU,Ironwood, 为了推动AI的下一次伟大飞跃和发展。 芯片可扩展至数千个,强大而大胆, 它推动着推理时代的到来,我们被告知。
从浩瀚的模型,带着如此敏锐的思考头脑, 到收集到的见解,一个光明而未被看到的未来, Ironwood的力量,一股不可小觑的力量, 为了AI的成长,一个规划良好的未来。
总结由 Google AI 生成。生成式AI为实验性的。
[以下跳过风格探索链接]
[以下跳过社交媒体分享链接]
很抱歉,您的浏览器不支持嵌入式视频,但请不要担心,您可以下载它并用您最喜欢的视频播放器观看!
今天在 Google Cloud Next 25 大会上,我们推出了 Ironwood,这是我们的第七代 Tensor Processing Unit (TPU) —— 迄今为止性能最高、可扩展性最强的定制 AI 加速器,也是首款专为推理而设计的加速器。 十多年来,TPU 一直为 Google 最苛刻的 AI 训练和服务工作负载提供支持,并使我们的 Cloud 客户能够做到这一点。 Ironwood 是我们迄今为止最强大、功能最强大、能效最高的 TPU。 它的目标是为大规模的思考型推理 AI 模型提供动力。
Ironwood 代表了 AI 开发及其底层基础设施的一个重大转变。 它从为人们提供实时信息以供解读的响应式 AI 模型,转变为主动生成洞察和解读的模型。 这就是我们所说的“推理时代”,AI 代理将主动检索和生成数据,以协作方式提供洞察和答案,而不仅仅是数据。
Ironwood 的构建旨在支持生成式 AI 的下一个阶段及其巨大的计算和通信需求。 它可以扩展到 9,216 个液冷芯片,这些芯片通过突破性的芯片间互连 (ICI) 网络连接,跨越近 10 兆瓦。 它是 Google Cloud AI Hypercomputer 架构的几个新组件之一,该架构共同优化硬件和软件,以满足最苛刻的 AI 工作负载。 借助 Ironwood,开发人员还可以利用 Google 自己的 Pathways 软件堆栈,可靠且轻松地利用数万个 Ironwood TPU 的组合计算能力。
以下更详细地介绍了这些创新如何协同工作,以无与伦比的性能、成本和功率效率来承担最苛刻的训练和服务工作负载。
[图片:Cloud_Collection_SS]
使用 Ironwood 赋能推理时代
Ironwood 旨在优雅地管理“思考模型”的复杂计算和通信需求,这些模型包括大型语言模型 (LLM)、混合专家模型 (MoE) 和高级推理任务。 这些模型需要大规模并行处理和高效的内存访问。 特别是,Ironwood 旨在最大限度地减少芯片上的数据移动和延迟,同时执行大规模张量操作。 在前沿,思考模型的计算需求远远超出了任何单个芯片的容量。 我们设计的 Ironwood TPU 具有低延迟、高带宽 ICI 网络,以支持在完整的 TPU pod 规模上进行协调的同步通信。
对于 Google Cloud 客户而言,Ironwood 提供两种尺寸,具体取决于 AI 工作负载需求:256 芯片配置和 9,216 芯片配置。
- 当扩展到每个 pod 9,216 个芯片(总计 42.5 Exaflops)时,Ironwood 支持的计算能力是世界最大超级计算机 El Capitan 的 24 倍以上,后者每个 pod 仅提供 1.7 Exaflops。 Ironwood 提供了最苛刻的 AI 工作负载(例如具有思考能力的大型密集 LLM 或 MoE 模型,用于训练和推理)所需的大规模并行处理能力。 每个芯片的峰值计算能力为 4,614 TFLOP。 这代表了 AI 能力的巨大飞跃。 Ironwood 的内存和网络架构确保始终有正确的数据可用来支持这种大规模的峰值性能。
- Ironwood 还具有增强的 SparseCore,这是一种专门的加速器,用于处理高级排名和推荐工作负载中常见的超大型嵌入。 Ironwood 中扩展的 SparseCore 支持允许加速更广泛的工作负载,包括从传统 AI 领域扩展到金融和科学领域。
- Pathways 是 Google 自己的 ML 运行时,由 Google DeepMind 开发,可在多个 TPU 芯片之间实现高效的分布式计算。 Google Cloud 上的 Pathways 使超越单个 Ironwood Pod 变得简单,从而可以将数十万个 Ironwood 芯片组合在一起,以快速推进 gen AI 计算的前沿。
[图片:总 FP8 峰值浮点运算性能相对于 TPU v2 的改进]
[图片:Cloud TPU 产品的技术规范并排比较,包括最新一代 Ironwood]
Ironwood 的主要特点
Google Cloud 是唯一一家拥有超过十年 AI 计算交付经验的超大规模企业,可支持尖端研究,无缝集成到每天为 Gmail、Search 等数十亿用户提供的全球规模服务中。 所有这些专业知识都是 Ironwood 功能的核心。 主要功能包括:
- 在注重功效的同时,显著提高性能,使 AI 工作负载能够以更具成本效益的方式运行。 相对于 Trillium(我们去年宣布的第六代 TPU),Ironwood 的性能/瓦特提高了 2 倍。 在可用功率是提供 AI 功能的限制之一的时候,我们为客户工作负载提供的每瓦容量显着提高。 即使在连续、繁重的 AI 工作负载下,我们先进的液体冷却解决方案和优化的芯片设计也可以可靠地维持高达标准空气冷却两倍的性能。 事实上,Ironwood 的功效是 2018 年推出的首款 Cloud TPU 的近 30 倍。
- 大幅提高高带宽内存 (HBM) 容量。 Ironwood 每个芯片提供 192 GB,是 Trillium 的 6 倍,这能够处理更大的模型和数据集,减少了频繁的数据传输需求并提高了性能。
- HBM 带宽显著提高,每个芯片达到 7.2 Tbps,是 Trillium 的 4.5 倍。 这种高带宽确保了快速的数据访问,这对于现代 AI 中常见的内存密集型工作负载至关重要。
- 增强的芯片间互连 (ICI) 带宽。 这已增加到 1.2 Tbps 双向,是 Trillium 的 1.5 倍,从而实现了芯片之间更快的通信,从而促进了大规模高效的分布式训练和推理。
[图片:Google TPU 相对于最早一代 Cloud TPU v2 的功率效率的改进]
Ironwood 解决了未来的 AI 需求
Ironwood 代表了推理时代的一个独特的突破,它提高了计算能力、内存容量、ICI 网络进步和可靠性。 这些突破与功率效率几乎提高 2 倍的事实相结合,意味着我们最苛刻的客户可以承担最高性能和最低延迟的训练和服务工作负载,同时满足计算需求的指数级增长。 Gemini 2.5 和诺贝尔奖获奖 AlphaFold 等领先的思考模型现在都在 TPU 上运行,我们迫不及待地想看到我们自己的开发人员和 Google Cloud 客户在今年晚些时候推出 Ironwood 时会激发哪些 AI 突破。
发布在:
[以下跳过相关新闻链接]
[以下跳过订阅和社交媒体链接]
[以下跳过页脚链接]