arXiv:2503.05116 (cs) [2025年3月7日提交 (v1), 最近修订于2025年3月10日 (此版本, v2)]

标题:Piccolo: Large-Scale Graph Processing with Fine-Grained In-Memory Scatter-Gather

作者:Changmin Shin, Jaeyong Song, Hongsun Jang, Dogeun Kim, Jun Sung, Taehee Kwon, Jae Hyung Ju, Frank Liu, Yeonkyu Choi, Jinho Lee

查看由 Changmin Shin 和其他 9 位作者撰写的题为 Piccolo: Large-Scale Graph Processing with Fine-Grained In-Memory Scatter-Gather 的论文的 PDF 版本。 查看 PDF HTML (实验性)

摘要:图处理需要不规则的、细粒度的随机访问模式,这与当今的片外存储器架构不兼容,导致数据访问效率低下。这种低效性使得图处理成为一种极度受内存限制的应用。因此,现有的图处理加速器通常采用基于图分块或内存处理 (PIM) 的方法来缓解内存瓶颈。在基于分块的方法中,图被分成适合片上缓存的块,以最大限度地提高数据重用率。在 PIM 方法中,算术单元被放置在内存中以执行诸如归约或原子加法之类的操作。然而,这两种方法都存在一些局限性,尤其是在当前内存标准(即 DDR)上实现时。由于 DDR 提供的访问粒度远大于图顶点属性数据的粒度,因此浪费了大量带宽和缓存容量。PIM 旨在缓解此类问题,但它难以与基于分块的方法结合使用,从而导致明显的缺点。此外,将算术单元放置在存储芯片内部成本很高,因此支持多种类型的操作被认为是不切实际的。为了解决上述局限性,我们提出了 Piccolo,一种端到端高效的图处理加速器,具有细粒度的内存随机 Scatter-Gather 能力。Piccolo 并没有在片外存储器中放置昂贵的算术单元,而是专注于通过随机 Scatter-Gather 的非算术 function-in-memory 来减少片外流量。为了充分利用内存中的 Scatter-Gather,Piccolo 重新设计了加速器的缓存和 MHA,使其能够同时享受分块和内存操作的优势。Piccolo 在各种广泛的基准测试中实现了最高 3.28 倍的加速和 1.62 倍的几何平均加速。

注释:| HPCA 2025 ---|--- 主题:| 硬件架构 (cs.AR) 引用为:| arXiv:2503.05116 [cs.AR] (或 arXiv:2503.05116v2 [cs.AR] 对于此版本) https://doi.org/10.48550/arXiv.2503.05116 通过 DataCite 了解更多由 arXiv 发布的 DOI

提交历史

来自:Jinho Lee [查看电子邮件] [v1] 2025年3月7日 03:27:33 UTC (1,813 KB) [v2] 2025年3月10日 02:41:21 UTC (1,813 KB)

全文链接:

访问论文:

查看由 Changmin Shin 和其他 9 位作者撰写的题为 Piccolo: Large-Scale Graph Processing with Fine-Grained In-Memory Scatter-Gather 的论文的 PDF 版本。