使用 Metagradient Descent 优化 ML 训练
arXiv:2503.13751 (stat) [2025年3月17日提交]
标题: 使用 Metagradient Descent 优化 ML 训练
作者: Logan Engstrom, Andrew Ilyas, Benjamin Chen, Axel Feldmann, William Moses, Aleksander Madry
查看由 Logan Engstrom 和其他 5 位作者撰写的题为“使用 Metagradient Descent 优化 ML 训练”的论文 PDF 版本 查看 PDF
摘要:训练大规模机器学习模型的一个主要挑战是配置训练过程,以最大限度地提高模型性能,即从广阔的设计空间中找到最佳的训练设置。在这项工作中,我们提出了一种基于梯度的方法来解决这个问题。我们首先介绍了一种算法,用于高效地大规模计算元梯度(通过模型训练的梯度)。然后,我们介绍了一个“平滑模型训练”框架,该框架可以使用元梯度进行有效的优化。通过 metagradient descent (MGD),我们极大地改进了现有的数据集选择方法,在精度下降的数据投毒攻击中表现优于一个数量级,并自动找到有竞争力的学习率调度方案。
主题: | 机器学习 (stat.ML); 人工智能 (cs.AI); 机器学习 (cs.LG) ---|--- 引用为: | arXiv:2503.13751 [stat.ML] (或 arXiv:2503.13751v1 [stat.ML] 用于此版本) https://doi.org/10.48550/arXiv.2503.13751 通过 DataCite 了解更多 arXiv 发布的 DOI
提交历史
来自:Andrew Ilyas [查看电子邮件] [v1] 2025年3月17日星期一 22:18:24 UTC (368 KB) 全文链接:
访问论文:
查看由 Logan Engstrom 和其他 5 位作者撰写的题为“使用 Metagradient Descent 优化 ML 训练”的论文 PDF 版本