Computer Science > Computer Vision and Pattern Recognition

arXiv:2301.08243 (cs) [Submitted on 19 Jan 2023 (v1), last revised 13 Apr 2023 (this version, v3)]

Title: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

作者:Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, Nicolas Ballas 查看由 Mahmoud Assran 和其他 7 位作者撰写的题为 "Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture" 的论文 PDF 版本 View PDF

摘要:本文展示了一种学习高语义图像表示的方法,该方法不依赖于手工制作的数据增强。 我们介绍了一种基于图像的联合嵌入预测架构 (I-JEPA),这是一种用于图像自监督学习的非生成方法。 I-JEPA 背后的想法很简单:从单个上下文块预测同一图像中各种目标块的表示。 指导 I-JEPA 产生语义表示的核心设计选择是掩蔽策略; 具体来说,至关重要的是 (a) 采样足够大规模(语义)的目标块,以及 (b) 使用足够信息量(空间分布)的上下文块。 从经验上看,当与 Vision Transformers 结合使用时,我们发现 I-JEPA 具有高度可扩展性。 例如,我们使用不到 72 小时的时间在 16 个 A100 GPU 上训练 ImageNet 上的 ViT-Huge/14,从而在从线性分类到对象计数和深度预测的各种任务中实现了强大的下游性能。 Comments: | 2023 IEEE/CVF International Conference on Computer Vision ---|--- Subjects: | Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Image and Video Processing (eess.IV) Cite as: | arXiv:2301.08243 [cs.CV] (or arXiv:2301.08243v3 [cs.CV] for this version) https://doi.org/10.48550/arXiv.2301.08243 Focus to learn more arXiv-issued DOI via DataCite

Submission history

From: Mahmoud Assran [view email] [v1] Thu, 19 Jan 2023 18:59:01 UTC (3,080 KB) [v2] Thu, 30 Mar 2023 18:28:46 UTC (3,077 KB) [v3] Thu, 13 Apr 2023 17:59:37 UTC (6,252 KB)