未来芯片:散热挑战愈演愈烈 (Future Chips Will Be Hotter Than Ever)
James Myers 1 小时前 9 分钟阅读
在技术内幕人士看来:
分享
Wodthikorn Phutthasatchathum/Alamy
50 多年来,在摩尔定律 (Moore’s Law)的推动下,工程师们成功地将相同面积内的晶体管数量每两年翻一番。但是,当业界追求逻辑密度时,一个不希望看到的副作用变得更加突出:散热。
在像当今的 CPU 和 GPU 这样的片上系统 (system-on-chip, SoC) 中,温度会影响性能、功耗和能源效率。随着时间的推移,过高的热量会减缓处理器中关键信号的传播,并导致芯片性能的永久性下降。它还会导致晶体管 (transistors)泄漏更多电流,从而浪费功率。反过来,增加的功耗会削弱芯片的能源效率,因为需要越来越多的能量才能执行完全相同的任务。
问题的根源在于另一条定律的终结:登纳德缩放比例 (Dennard scaling)。这条定律指出,随着晶体管线性尺寸的缩小,电压应降低,以使给定区域的总功耗保持恒定。登纳德缩放比例在 2000 年代中期有效地结束了,当时的任何进一步的电压降低都不可行,而不会损害晶体管的整体功能。因此,虽然逻辑电路的密度持续增长,但功率密度也随之增长,从而产生热量作为副产品。
随着芯片变得越来越紧凑和强大,高效的散热对于保持其性能和寿命至关重要。为了确保这种效率,我们需要一种工具来预测新的半导体技术(制造晶体管、互连 (interconnects)和逻辑单元的工艺)如何改变热量的产生和消除方式。我在 Imec 的研究同事和我开发了这样的工具。我们的仿真框架使用行业标准和开源的 电子设计自动化 (electronic design automation, EDA) 工具,并辅以我们内部的工具集,以快速探索半导体技术与使用它构建的系统之间的相互作用。
到目前为止,结果是不可避免的:随着每个新的技术节点的出现,热挑战都在增加,如果希望它们能够处理热量,我们将需要新的解决方案,包括新的芯片和系统设计方法。
冷却的极限
传统上,SoC 通过在连接到其封装的散热器 (heat sink) 上吹气来冷却。一些数据中心 (data centers)已经开始使用液体代替,因为它比气体更能吸收热量。液体冷却剂(通常是水或水基混合物)可能足以满足最新一代高性能芯片的需求,例如 Nvidia 的新型 AI GPU,据报道其功耗高达惊人的 1,000 瓦。但是,风扇或液体冷却器都无法与即将推出的更小节点技术相提并论。
热量在从芯片中移除时会遵循复杂的路径,但 95% 的热量通过散热器排出。 Imec
例如,纳米片晶体管 (nanosheet transistors) 和 互补型场效应晶体管 (complementary field-effect transistors, CFET)。领先的芯片制造商已经在转向纳米片器件,该器件将当今鳍式场效应晶体管中的鳍片换成水平半导体薄片堆叠。CFET 将这种架构发挥到极致,垂直堆叠更多的薄片,并将其分成两个器件,从而将两个晶体管放置在与一个晶体管大致相同的占位面积中。专家预计,半导体行业 (semiconductor industry) 将在 2030 年代推出 CFET。
在我们的工作中,我们研究了即将推出的纳米片版本,称为 A10(指 10 埃米或 1 纳米的节点)和一个名为 A5 的 CFET 版本,Imec 预计它将在 A10 之后的两代出现。我们测试设计的模拟表明,A5 节点的功率密度比 A10 节点高 12% 到 15%。反过来,这种增加的密度将导致在相同工作电压下预计的温度升高 9 °C。
互补型场效应晶体管将纳米片晶体管彼此堆叠,从而提高密度和温度。为了在与纳米片晶体管(A10 节点)相同的温度下运行,CFET(A5 节点)必须以降低的电压运行。 Imec
9 度可能看起来不多。但是在数据中心中,成千上万甚至数百万个芯片堆叠在一起,它可能意味着稳定运行和热失控之间的差异,即令人恐惧的反馈回路,其中温度升高会增加泄漏功率,从而升高温度,从而增加泄漏功率,依此类推,直到最终,安全机制必须关闭硬件以避免永久性损坏。
研究人员正在寻求基本液体和空气冷却的先进替代方案,这可能有助于缓解这种极端高温。例如,微流体冷却使用蚀刻到芯片中的微小通道来在设备内部循环液体冷却剂。其他方法包括射流冲击,该方法涉及以高速将气体或液体喷洒到芯片表面上,以及浸没式冷却,其中整个印刷电路板都浸入冷却剂浴中。
但是,即使这些新技术发挥作用,仅依靠冷却器来消除额外的热量也可能是不切实际的。对于移动系统尤其如此,这些系统受到尺寸、重量、电池电量以及避免烧伤用户的需求的限制。同时,数据中心面临着不同的限制:由于冷却是建筑物范围内的基础设施费用,因此每次新芯片问世都更新冷却设置将花费太多的成本并且会造成太大的干扰。
性能与散热
幸运的是,冷却技术并不是阻止芯片烧毁的唯一方法。各种系统级解决方案可以通过动态适应不断变化的热条件来控制热量。
一种方法是在芯片周围放置热传感器。当传感器检测到令人担忧的温度升高时,它们会发出信号以降低工作电压和频率,从而降低功耗,从而抵消加热。但是,虽然这种方案解决了散热问题,但它可能会显着影响芯片的性能。例如,芯片在炎热的环境中可能始终工作不佳,任何曾经将智能手机放在阳光下的人都可以证明这一点。
另一种方法称为热短跑,对于多核 (multicore) 数据中心 CPU 特别有用。它通过运行一个核心直到它过热,然后将操作转移到第二个核心,同时第一个核心冷却下来来完成。此过程可最大限度地提高单个线程的性能,但是当工作必须在多个核心之间迁移以执行更长的任务时,可能会导致延迟。热短跑还会降低芯片的整体吞吐量,因为其中一部分将始终处于禁用状态以进行冷却。
因此,系统级解决方案需要在散热和性能之间取得仔细的平衡。为了有效地应用它们,SoC 设计人员必须全面了解芯片上的功率如何分配以及热点发生在何处、传感器应放置在何处以及何时应触发电压或频率降低以及芯片的各个部分需要多长时间才能冷却。但是,即使是最好的芯片设计师,很快也需要更具创意的方式来管理热量。
利用芯片背面
一个有希望的追求包括在晶圆的底面或背面添加新功能。该策略主要旨在提高功率传输和计算性能。但它也可能有助于解决一些散热问题。
新技术可以降低需要传输到多核处理器的电压,以便芯片在以可接受的频率运行时保持最低电压。背面供电网络通过降低电阻来实现这一点。背面电容器可降低瞬态电压损耗。背面集成电压调节器允许不同的内核根据需要以不同的最低电压运行。 Imec
Imec 预见了几种背面技术,这些技术可能允许芯片以较低的电压运行,从而减少它们产生的热量。背面供电网络 (backside power-delivery network, BSPDN),它完全符合它的名称:它将电源线从芯片的正面移到背面。所有 先进的 CMOS 代工厂都计划在 2026 年底之前提供 BSPDN。早期演示表明,它们通过将电源更靠近晶体管来降低电阻。电阻越小,电压损耗越小,这意味着芯片可以以降低的输入电压运行。当电压降低时,功率密度会下降,从而温度也会下降。
通过改变散热路径中的材料,背面供电技术可能会使芯片上的热点更加热。 Imec
在 BSPDN 之后,制造商可能会开始在背面添加具有高能量存储容量的电容器。由印刷电路板和芯片封装中的电感引起的大的电压波动在高性 SoC 中可能特别有问题。背面电容器应该可以帮助解决这个问题,因为它们更靠近晶体管,因此可以更快地吸收电压尖峰和波动。因此,与仅使用 BSPDN 相比,这种布置将使芯片能够以更低的电压和温度运行。
最后,芯片制造商将推出背面集成电压调节器 (integrated voltage-regulator, IVR) 电路。该技术旨在通过更精细的电压调整来进一步降低芯片的电压要求。例如,智能手机的 SoC 通常有 8 个或更多计算核心,但是芯片上没有空间让每个核心都有自己的离散电压调节器。相反,一个片外调节器通常会一起管理四个核心的电压,而不管所有四个核心是否都面临相同的计算负载。另一方面,IVR 将通过专用电路单独管理每个核心,从而提高能源效率。将它们放置在背面可以节省正面的宝贵空间。
目前尚不清楚背面技术将如何影响热管理 (heat management);需要演示和模拟来绘制效果图。添加新技术通常会增加功率密度,芯片设计人员将需要考虑散热后果。例如,在放置背面 IVR 时,如果 IVR 均匀分布,或者它们集中在特定区域(例如每个核心和内存缓存的中心),散热问题会得到改善吗?
最近,我们表明,背面供电可能会引入新的散热问题,即使它解决了旧的散热问题。原因是创建 BSPDN 时留下的薄如蝉翼的硅层。在正面设计中,硅衬底可以厚达 750 微米。由于硅的导热性良好,因此这种相对笨重的层可以通过横向散发晶体管的热量来帮助控制热点。但是,添加背面技术需要将衬底减薄到约 1 毫米,以便从背面访问晶体管。夹在两层电线和绝缘体之间,这种纤薄的硅片不再能有效地将热量横向移动到侧面。结果,来自过度活跃的晶体管的热量可能会被局部捕获并被迫向上朝着冷却器移动,从而加剧热点。
我们对 80 核服务器 SoC 的模拟发现,BSPDN 可以将热点温度升高多达 14 °C。设计和技术调整(例如增加背面金属的密度)可以改善这种情况,但是我们将需要更多的缓解策略才能完全避免这种情况。
为“CMOS 2.0”做准备
BSPDN 是 Imec 称为 CMOS 2.0 的一种新的硅逻辑技术范例的一部分。这个新兴时代还将见证先进的晶体管架构和专门的逻辑层。这些技术的主要目的是优化芯片性能和功率效率 (power efficiency),但它们也可能提供散热优势,包括改善散热。
在当今的 CMOS 芯片中,单个晶体管将信号驱动到附近和远处的组件,从而导致效率低下。但是,如果有两个驱动层呢?一个层将处理长电线,并使用专用晶体管缓冲这些连接;另一层将仅处理 10 毫米以下的连接。由于第二层中的晶体管针对短连接进行了优化,因此它们可以以较低的电压运行,从而再次降低功率密度。但是,具体降低多少仍不确定。
将来,芯片的各个部分将使用适合每种工艺技术的工艺技术在自己的硅晶圆上制造。然后将它们 3D 堆叠以形成 SoC,这些 SoC 的功能优于仅使用一种工艺技术构建的 SoC。但是,工程师必须仔细考虑热量如何流过这些新的 3D 结构。 Imec
显而易见的是,解决行业的热问题将是一项跨学科的努力。仅靠任何一种技术(无论是热界面材料、晶体管、系统控制方案、封装还是冷却器)都不太可能解决未来芯片的热问题。我们将需要所有这些。借助良好的仿真工具和分析,我们可以开始了解应用每种方法的程度以及时间表。尽管 CMOS 2.0 技术(特别是背面功能化和专用逻辑)的热优势看起来很有希望,但我们需要确认这些早期预测并仔细研究其含义。例如,对于背面技术,我们需要确切地知道它们如何改变热量的产生和耗散,以及这是否会产生比解决的问题更多的新问题。
芯片设计人员可能会倾向于采用新的半导体技术,并假设无法预见的热问题可以在以后的软件中处理。这可能是真的,但仅在一定程度上。过度依赖软件解决方案将对芯片的性能产生不利影响,因为这些解决方案本质上是不精确的。例如,修复单个热点可能需要降低否则未过热的较大区域的性能。因此,SoC 以及用于构建它们的半导体技术必须协同设计。
好消息是,越来越多的 EDA 产品正在添加用于高级热分析的功能,包括在 芯片设计 (chip design) 的早期阶段。专家们还在呼吁采用一种新的芯片开发方法,称为 系统技术协同优化 (system technology co-optimization, STCO)。STCO 旨在通过整体考虑系统、物理设计和工艺技术来消除它们之间严格的抽象边界。深度专家将需要走出他们的舒适区,与其他芯片工程领域的专家合作。我们可能还不知道如何准确地解决行业不断增加的热挑战,但我们乐观地认为,借助正确的工具和协作,可以做到这一点。
芯片冷却 (chip cooling)导热率 (thermal conductivity)纳米片 (nanosheets)CFET散热器 (heat spreader)散热片 (heat sink)