arXiv:2203.09795 (cs) [2022年3月18日提交]

标题: Three things everyone should know about Vision Transformers

作者: Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Jakob Verbeek, Hervé Jégou 查看由 Hugo Touvron 和其他 4 位作者撰写的题为 Three things everyone should know about Vision Transformers 的论文的 PDF 版本 查看PDF

摘要:在自然语言处理领域取得初步成功后,Transformer 架构迅速在计算机视觉领域获得关注,为图像分类、检测、分割和视频分析等任务提供了最先进的结果。我们基于简单的且易于实现的 Vision Transformers 变体,提供了三个见解。(1) Vision Transformers 的残差层通常按顺序处理,但在一定程度上可以有效地并行处理,而不会明显影响准确性。(2) 微调 attention 层的权重足以使 Vision Transformers 适应更高的分辨率和其他分类任务。这样可以节省计算量,减少微调时的峰值内存消耗,并允许跨任务共享大部分权重。(3) 添加基于 MLP 的 patch 预处理层可以改进基于 patch masking 的类似 Bert 的自监督训练。我们使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上证实了我们的发现。跨六个较小的数据集测量了迁移性能。

主题:| 计算机视觉与模式识别 (cs.CV) ---|--- 引用为:| arXiv:2203.09795 [cs.CV] (或 arXiv:2203.09795v1 [cs.CV] for this version) https://doi.org/10.48550/arXiv.2203.09795 Focus to learn more arXiv-issued DOI via DataCite

提交历史

来自: Hugo Touvron [查看电子邮件] [v1] Fri, 18 Mar 2022 08:23:03 UTC (7,707 KB) 全文链接:

访问论文:

查看由 Hugo Touvron 和其他 4 位作者撰写的题为 Three things everyone should know about Vision Transformers 的论文的 PDF 版本