现代半导体器件的生产面临着诸多挑战,整个行业能够成功应对实属不易。从底层物理到制造工艺再到开发流程,需要解决的难题比比皆是。其中一些最大的问题出现在深亚微米芯片的计算光刻中。一篇最近的文章概述了计算光刻的主要趋势,并总结了一些挑战和新兴的解决方案。本文重点关注另一个关键挑战——计算光刻对计算需求的急剧增长,并讨论图形处理单元(GPUs)如何帮助满足这种需求。

计算需求增长的原因在于需要补偿光刻过程中由于衍射或工艺效应引入的图像误差,而随着芯片设计密度的增加,补偿所需的时间也越来越长。如果不加以校正,蚀刻在硅片上的图形将无法精确地再现设计人员绘制的形状。边角可能会变圆,线宽可能会与预期不同。传统的解决方法是采用光学邻近校正(OPC),它通过调整边缘和多边形来优化蚀刻特征,并尽可能地与设计意图相匹配。

OPC 需要大量的计算,但这通常不是主要问题,因为基于分段的优化可以实现并行处理。更大的问题在于,OPC 在所生成校正形状的复杂性和用于校正的技术方面,自由度有限。近年来,逆向光刻技术(ILT)作为一种更灵活的方法应运而生。它将图形转换为像素,从而可以使用基于像素的优化技术。ILT 可以处理范围更广的形状和图案,但与 OPC 相比,它需要更多的计算能力。虽然大量采用了并行处理,但用户报告称,单个 ILT 光罩可能需要消耗超过 1 万个 CPU 核心,并持续数天时间。

计算光刻的需求持续增长。每个新制程节点都意味着每个光罩需要处理更多的多边形,先进的工艺需要更多的光罩,并且所使用的形状也变得越来越复杂。鉴于 GPUs 提供了大规模的并行性,并且已经成功地加速了芯片开发过程中的其他几个步骤,人们很自然地会想知道它们是否可以加速 ILT 的计算。用户明确地表达了他们的期望:使用合理的资源,计算时间少于一天。最近 NVIDIA、TSMC 和 Synopsys 之间的合作工作提供了重要的证据,表明 GPUs 可以帮助实现这一目标。这项工作涉及将光刻代码从 CPUs 转换为 GPUs 的三个主要转变:

过去,基于 CPU 的算法和计算服务器硬件的改进为计算光刻提供了 2-4 倍的加速。2020 年使用 GPUs 的初步实验表明,ILT 仿真功能的速度提高了 10 倍。如上图所示,后续工作发现许多额外的计算,例如多边形和非基于图像的操作,也适用于 GPUs。其中一些操作用于 OPC 以及 ILT,表明 GPUs 可以加速两种类型的光罩优化。

NVIDIA、TSMC 和 Synopsys 还共同开发了一个新的 GPU 光刻库,用于 OPC 和 ILT。该库具有多边形和基于边缘的几何算法、多边形栅格化、FFT、卷积等。对于某些类型的功能,已经观察到比 CPUs 高达 40 倍的加速。对于一个 ILT “配方” 在多个模板上累积的总运行时间,从 CPUs 到 GPUs 的总体加速超过 15 倍。这使得一个需要多天的 CPU 运行可以在一天内使用更少的并行机器完成。

这些结果只是一个时间点的快照;计算光刻仍然是一个非常活跃的研究、开发和部署领域。越来越多的配方、流程和功能不断地在 GPUs 上启用,人工智能机器学习(ML)的应用也日益广泛,并且更有效的 CPU+GPU 协同优化也在不断发展。所有最新结果将在 3 月 21 日星期五在加利福尼亚州圣何塞举行的 NVIDIA GTC 大会上关于“利用 NIM 和 GPU 加速通过 AI 转换芯片设计”的会议上展示。Synopsys 还将于 3 月 18 日至 3 月 21 日在 222 号展位上进行展览。光刻专家将到场回答任何问题。