Piccolo：基于细粒度内存 Scatter-Gather 的大规模图处理

Piccolo: Large-Scale Graph Processing with Fine-Grained In-Memory Scatter-Gather

Source | HN Comments

Piccolo 是一种针对大规模图处理的加速器，旨在解决现有方案在内存访问效率上的问题。文章指出，传统图处理受限于内存访问的随机性和细粒度，导致带宽和缓存利用率低。Piccolo 采用细粒度的内存 Scatter-Gather 技术，通过减少片外流量来提高效率。它重新设计了缓存和 MHA，结合了分块和内存操作的优势。实验结果表明，Piccolo 在多种基准测试中实现了显著的加速。

arXiv:2503.05116 (cs) [2025年3月7日提交 (v1), 最近修订于2025年3月10日 (此版本, v2)]

标题:Piccolo: Large-Scale Graph Processing with Fine-Grained In-Memory Scatter-Gather

作者：Changmin Shin, Jaeyong Song, Hongsun Jang, Dogeun Kim, Jun Sung, Taehee Kwon, Jae Hyung Ju, Frank Liu, Yeonkyu Choi, Jinho Lee

查看由 Changmin Shin 和其他 9 位作者撰写的题为 Piccolo: Large-Scale Graph Processing with Fine-Grained In-Memory Scatter-Gather 的论文的 PDF 版本。查看 PDF HTML (实验性)

摘要：图处理需要不规则的、细粒度的随机访问模式，这与当今的片外存储器架构不兼容，导致数据访问效率低下。这种低效性使得图处理成为一种极度受内存限制的应用。因此，现有的图处理加速器通常采用基于图分块或内存处理 (PIM) 的方法来缓解内存瓶颈。在基于分块的方法中，图被分成适合片上缓存的块，以最大限度地提高数据重用率。在 PIM 方法中，算术单元被放置在内存中以执行诸如归约或原子加法之类的操作。然而，这两种方法都存在一些局限性，尤其是在当前内存标准（即 DDR）上实现时。由于 DDR 提供的访问粒度远大于图顶点属性数据的粒度，因此浪费了大量带宽和缓存容量。PIM 旨在缓解此类问题，但它难以与基于分块的方法结合使用，从而导致明显的缺点。此外，将算术单元放置在存储芯片内部成本很高，因此支持多种类型的操作被认为是不切实际的。为了解决上述局限性，我们提出了 Piccolo，一种端到端高效的图处理加速器，具有细粒度的内存随机 Scatter-Gather 能力。Piccolo 并没有在片外存储器中放置昂贵的算术单元，而是专注于通过随机 Scatter-Gather 的非算术 function-in-memory 来减少片外流量。为了充分利用内存中的 Scatter-Gather，Piccolo 重新设计了加速器的缓存和 MHA，使其能够同时享受分块和内存操作的优势。Piccolo 在各种广泛的基准测试中实现了最高 3.28 倍的加速和 1.62 倍的几何平均加速。

注释：| HPCA 2025 ---|--- 主题：| 硬件架构 (cs.AR) 引用为：| arXiv:2503.05116 [cs.AR] (或 arXiv:2503.05116v2 [cs.AR] 对于此版本) https://doi.org/10.48550/arXiv.2503.05116 通过 DataCite 了解更多由 arXiv 发布的 DOI

提交历史

来自：Jinho Lee [查看电子邮件] [v1] 2025年3月7日 03:27:33 UTC (1,813 KB) [v2] 2025年3月10日 02:41:21 UTC (1,813 KB)

全文链接：

访问论文：

查看由 Changmin Shin 和其他 9 位作者撰写的题为 Piccolo: Large-Scale Graph Processing with Fine-Grained In-Memory Scatter-Gather 的论文的 PDF 版本。