Ironwood:面向推理时代的 Google 首款 TPU

[以下跳过主内容链接]

[以下跳过无意义的链接]

Ironwood: The first Google TPU for the age of inference

[以下跳过社交媒体分享链接]

通用总结

Google 发布了第七代 Tensor Processing Unit (TPU)——Ironwood,专为推理而设计。这款强大的AI加速器旨在处理“思考模型”(如大型语言模型和混合专家模型)的大规模计算需求。Ironwood 可扩展至 9,216 个芯片,提供 42.5 Exaflops 的计算能力,使其比世界上最大的超级计算机还要强大。

总结由 Google AI 生成。生成式AI为实验性的。

要点

总结由 Google AI 生成。生成式AI为实验性的。

莎士比亚风格

Google 带来了新的 TPU,Ironwood, 为了推动AI的下一次伟大飞跃和发展。 芯片可扩展至数千个,强大而大胆, 它推动着推理时代的到来,我们被告知。

从浩瀚的模型,带着如此敏锐的思考头脑, 到收集到的见解,一个光明而未被看到的未来, Ironwood的力量,一股不可小觑的力量, 为了AI的成长,一个规划良好的未来。

总结由 Google AI 生成。生成式AI为实验性的。

[以下跳过风格探索链接]

[以下跳过社交媒体分享链接]

很抱歉,您的浏览器不支持嵌入式视频,但请不要担心,您可以下载它并用您最喜欢的视频播放器观看!

今天在 Google Cloud Next 25 大会上,我们推出了 Ironwood,这是我们的第七代 Tensor Processing Unit (TPU) —— 迄今为止性能最高、可扩展性最强的定制 AI 加速器,也是首款专为推理而设计的加速器。 十多年来,TPU 一直为 Google 最苛刻的 AI 训练和服务工作负载提供支持,并使我们的 Cloud 客户能够做到这一点。 Ironwood 是我们迄今为止最强大、功能最强大、能效最高的 TPU。 它的目标是为大规模的思考型推理 AI 模型提供动力。

Ironwood 代表了 AI 开发及其底层基础设施的一个重大转变。 它从为人们提供实时信息以供解读的响应式 AI 模型,转变为主动生成洞察和解读的模型。 这就是我们所说的“推理时代”,AI 代理将主动检索和生成数据,以协作方式提供洞察和答案,而不仅仅是数据。

Ironwood 的构建旨在支持生成式 AI 的下一个阶段及其巨大的计算和通信需求。 它可以扩展到 9,216 个液冷芯片,这些芯片通过突破性的芯片间互连 (ICI) 网络连接,跨越近 10 兆瓦。 它是 Google Cloud AI Hypercomputer 架构的几个新组件之一,该架构共同优化硬件和软件,以满足最苛刻的 AI 工作负载。 借助 Ironwood,开发人员还可以利用 Google 自己的 Pathways 软件堆栈,可靠且轻松地利用数万个 Ironwood TPU 的组合计算能力。

以下更详细地介绍了这些创新如何协同工作,以无与伦比的性能、成本和功率效率来承担最苛刻的训练和服务工作负载。

[图片:Cloud_Collection_SS]

使用 Ironwood 赋能推理时代

Ironwood 旨在优雅地管理“思考模型”的复杂计算和通信需求,这些模型包括大型语言模型 (LLM)、混合专家模型 (MoE) 和高级推理任务。 这些模型需要大规模并行处理和高效的内存访问。 特别是,Ironwood 旨在最大限度地减少芯片上的数据移动和延迟,同时执行大规模张量操作。 在前沿,思考模型的计算需求远远超出了任何单个芯片的容量。 我们设计的 Ironwood TPU 具有低延迟、高带宽 ICI 网络,以支持在完整的 TPU pod 规模上进行协调的同步通信。

对于 Google Cloud 客户而言,Ironwood 提供两种尺寸,具体取决于 AI 工作负载需求:256 芯片配置和 9,216 芯片配置。

[图片:总 FP8 峰值浮点运算性能相对于 TPU v2 的改进]

[图片:Cloud TPU 产品的技术规范并排比较,包括最新一代 Ironwood]

Ironwood 的主要特点

Google Cloud 是唯一一家拥有超过十年 AI 计算交付经验的超大规模企业,可支持尖端研究,无缝集成到每天为 Gmail、Search 等数十亿用户提供的全球规模服务中。 所有这些专业知识都是 Ironwood 功能的核心。 主要功能包括:

[图片:Google TPU 相对于最早一代 Cloud TPU v2 的功率效率的改进]

Ironwood 解决了未来的 AI 需求

Ironwood 代表了推理时代的一个独特的突破,它提高了计算能力、内存容量、ICI 网络进步和可靠性。 这些突破与功率效率几乎提高 2 倍的事实相结合,意味着我们最苛刻的客户可以承担最高性能和最低延迟的训练和服务工作负载,同时满足计算需求的指数级增长。 Gemini 2.5 和诺贝尔奖获奖 AlphaFold 等领先的思考模型现在都在 TPU 上运行,我们迫不及待地想看到我们自己的开发人员和 Google Cloud 客户在今年晚些时候推出 Ironwood 时会激发哪些 AI 突破。

发布在:

[以下跳过相关新闻链接]

[以下跳过订阅和社交媒体链接]

[以下跳过页脚链接]