arXiv:2501.08889 (cs) [2025年1月15日提交]

Title: Karatsuba Matrix Multiplication and its Efficient Custom Hardware Implementations

作者:Trevor E. Pogue, Nicola Nicolici

查看由Trevor E. Pogue 和其他 1 位作者撰写的题为 Karatsuba Matrix Multiplication and its Efficient Custom Hardware Implementations 的论文的 PDF 版本。 查看PDF HTML (实验性)

摘要:尽管 Karatsuba 算法降低了大整数乘法的复杂度,但它所需要的额外加法运算也使其在较小位宽的整数(更常用的位宽)上的优势最小化。在这项工作中,我们提出了将标量 Karatsuba 乘法算法扩展到矩阵乘法的想法,展示了如何在保持原始 Karatsuba 算法乘法复杂度的降低的同时,降低额外加法运算的复杂度。此外,我们提出了新的矩阵乘法硬件架构,用于在定制硬件中有效地利用 Karatsuba 算法的这种扩展。我们表明,与标量 Karatsuba 或传统矩阵乘法算法相比,所提出的算法和硬件架构可以为整数矩阵乘法提供实际的面积或执行时间改进,同时还支持通过经过验证的 systolic array 和传统的乘法器架构在核心中实现。我们提供了算法和架构的复杂度分析,并将所提出的设计与在相同类型的计算平台上实现的基线设计和先前最先进的工作进行比较,在孤立的和端到端的深度学习加速器系统中评估了所提出的设计,证明了它们提高矩阵乘法硬件的性能面积比的能力。

注释: | 被 IEEE Transactions on Computers 接受发表; 相关的源代码可在 GitHub 上通过 此链接 获得。 ---|--- 主题: | 硬件架构 (cs.AR); 人工智能 (cs.AI); 性能 (cs.PF) 引用为: | arXiv:2501.08889 [cs.AR] (或者 arXiv:2501.08889v1 [cs.AR] 对于这个版本) https://doi.org/10.48550/arXiv.2501.08889 通过 DataCite 了解更多关于 arXiv 发布的 DOI 相关DOI: | https://doi.org/10.1109/TC.2025.3525606 点击以了解更多链接到相关资源的 DOI

提交历史

来自: Trevor Pogue [查看电子邮件] [v1] 2025年1月15日 16:00:43 UTC (2,925 KB) 全文链接:

访问论文:

查看由Trevor E. Pogue 和其他 1 位作者撰写的题为 Karatsuba Matrix Multiplication and its Efficient Custom Hardware Implementations 的论文的 PDF 版本。