µPC:将预测编码扩展到百层以上的网络
Computer Science > Machine Learning
arXiv:2505.13124 (cs) [Submitted on 19 May 2025]
Title: µPC: Scaling Predictive Coding to 100+ Layer Networks
Authors:Francesco Innocenti, El Mehdi Achour, Christopher L. Buckley View a PDF of the paper titled $\mu$PC: Scaling Predictive Coding to 100+ Layer Networks, by Francesco Innocenti and 2 other authors View PDF HTML (experimental)
Abstract:反向传播 (BP) 在生物学上的不合理性促使许多替代方案出现,这些受大脑启发的算法试图仅依赖于局部信息,例如预测编码 (PC) 和平衡传播。然而,这些算法一直难以训练非常深的网络,从而阻止它们在大规模环境中与 BP 竞争。事实上,扩展 PC 网络 (PCN) 最近已成为社区面临的挑战 (Pinchetti et al., 2024)。在这里,我们展示了可以使用 Depth-\muP 参数化 (Yang et al., 2023; Bordelon et al., 2023) 可靠地训练 100+ 层的 PCN,我们称之为“\muPC”。通过对 PCN 的缩放行为进行广泛的分析,我们揭示了使标准 PCN 难以在大深度下训练的几种病态。然后,我们表明,尽管仅解决了一些这些不稳定性,但 \muPC 允许在简单的分类任务上对非常深(高达 128 层)的残差网络进行稳定的训练,与当前基准相比,具有竞争性的性能和很少的调整。此外,\muPC 能够实现权重和活动学习率在宽度和深度上的零样本迁移。我们的结果对其他局部算法具有影响,并且可以扩展到卷积和 transformer 架构。\muPC 的代码作为 this https URL 上的 PCN 的 JAX 库的一部分提供 (Innocenti et al., 2024)。 Comments: | 34 pages, 41 figures
---|---
Subjects: | Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Neural and Evolutionary Computing (cs.NE)
ACM classes: | I.2.6
Cite as: | arXiv:2505.13124 [cs.LG]
(or arXiv:2505.13124v1 [cs.LG] for this version)
https://doi.org/10.48550/arXiv.2505.13124 Focus to learn more arXiv-issued DOI via DataCite (pending registration)
Submission history
From: Francesco Innocenti [view email] [v1] Mon, 19 May 2025 13:54:29 UTC (24,285 KB) Full-text links:
Access Paper:
View a PDF of the paper titled $\mu$PC: Scaling Predictive Coding to 100+ Layer Networks, by Francesco Innocenti and 2 other authors