µPC：将预测编码扩展到百层以上的网络

µPC: Scaling Predictive Coding to 100 Layer Networks

Source | HN Comments

文章介绍了 µPC，一种将预测编码 (PC) 扩展到百层以上网络的方案。由于反向传播 (BP) 在生物学上的局限性，研究者探索了 PC 等仅依赖局部信息的算法，但其训练深层网络的能力受限。µPC 通过 Depth-µP 参数化，解决了标准 PC 网络在大深度下训练的难题，实现了对 100+ 层网络的稳定训练。实验表明，µPC 在分类任务上表现出色，并具备零样本迁移能力。研究结果对其他局部算法具有借鉴意义，并可应用于卷积和 transformer 架构。

Computer Science > Machine Learning

arXiv:2505.13124 (cs) [Submitted on 19 May 2025]

Title: µPC: Scaling Predictive Coding to 100+ Layer Networks

Authors:Francesco Innocenti, El Mehdi Achour, Christopher L. Buckley View a PDF of the paper titled $\mu$PC: Scaling Predictive Coding to 100+ Layer Networks, by Francesco Innocenti and 2 other authors View PDF HTML (experimental)

Abstract:反向传播 (BP) 在生物学上的不合理性促使许多替代方案出现，这些受大脑启发的算法试图仅依赖于局部信息，例如预测编码 (PC) 和平衡传播。然而，这些算法一直难以训练非常深的网络，从而阻止它们在大规模环境中与 BP 竞争。事实上，扩展 PC 网络 (PCN) 最近已成为社区面临的挑战 (Pinchetti et al., 2024)。在这里，我们展示了可以使用 Depth-\muP 参数化 (Yang et al., 2023; Bordelon et al., 2023) 可靠地训练 100+ 层的 PCN，我们称之为“\muPC”。通过对 PCN 的缩放行为进行广泛的分析，我们揭示了使标准 PCN 难以在大深度下训练的几种病态。然后，我们表明，尽管仅解决了一些这些不稳定性，但 \muPC 允许在简单的分类任务上对非常深（高达 128 层）的残差网络进行稳定的训练，与当前基准相比，具有竞争性的性能和很少的调整。此外，\muPC 能够实现权重和活动学习率在宽度和深度上的零样本迁移。我们的结果对其他局部算法具有影响，并且可以扩展到卷积和 transformer 架构。\muPC 的代码作为 this https URL 上的 PCN 的 JAX 库的一部分提供 (Innocenti et al., 2024)。 Comments: | 34 pages, 41 figures
---|---
Subjects: | Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Neural and Evolutionary Computing (cs.NE)
ACM classes: | I.2.6
Cite as: | arXiv:2505.13124 [cs.LG]
(or arXiv:2505.13124v1 [cs.LG] for this version)
https://doi.org/10.48550/arXiv.2505.13124 Focus to learn more arXiv-issued DOI via DataCite (pending registration)

Submission history

From: Francesco Innocenti [view email] [v1] Mon, 19 May 2025 13:54:29 UTC (24,285 KB) Full-text links:

Access Paper:

View a PDF of the paper titled $\mu$PC: Scaling Predictive Coding to 100+ Layer Networks, by Francesco Innocenti and 2 other authors