arXiv:2309.16588 (cs) [2023年9月28日提交 (v1), 最新修订于 2024年4月12日 (此版本, v2)]

Title: Vision Transformers Need Registers

作者: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski

查看 PDF HTML (experimental)

摘要:最近,Transformers 已经成为学习视觉表征的强大工具。在本文中,我们识别并描述了有监督和自监督 ViT 网络特征图中的伪影。这些伪影对应于在推理期间出现的高范数 tokens,主要位于图像中信息量较低的背景区域,这些 tokens 被重新用于内部计算。我们提出了一种简单而有效的解决方案,即为 Vision Transformer 的输入序列提供额外的 tokens 来填充该角色。我们表明,这个解决方案完全解决了有监督和自监督模型的问题,为密集视觉预测任务上自监督视觉模型设定了新的技术水平,使更大模型的对象发现方法成为可能,最重要的是,为下游视觉处理带来了更平滑的特征图和注意力图。

主题: | 计算机视觉与模式识别 (cs.CV) ---|--- 引用方式: | arXiv:2309.16588 [cs.CV] (或 arXiv:2309.16588v2 [cs.CV] 对于此版本) https://doi.org/10.48550/arXiv.2309.16588