MAE论文笔记

Masked Autoencoders Are Scalable Vision Learners

MAE模型和其他的结构的关系，可以认为是在ViT的基础上实现类似于BERT的通过完型填空获取图片的理解

标题和作者

Masked Autoencoders Are Scalable Vision Learners

其中的Autoencoders 中的auto是“自”的意思，主要是指输入(x)和输出(y)是来自于同一个变量（相同），题目设置使用Autoencoders 使用为在CV领域这中类型的结构还很少，在NLP领域很广泛，因此作者在这里表明了。论文的名字很有意义，将结论浓缩成一句话

作者团队是何凯明大神团队

Abstract

本文证明了masked autoencoders（MAE）是一种可扩展的计算机视觉 self-supervised 学习器。我们的MAE方法很简单：我们屏蔽输入图像的随机patches并重建缺失的pixels.。它基于两个核心设计。第一，我们开发了一个非对称encoder-decoder体系结构，其中一个编码器只在可见的patches子集上运行（没有掩码标记，即没有被遮挡的，减少计算量），另一个轻量级解码器从潜在表示和掩码标记重建原始图像。第二，我们发现掩蔽输入图像的高比例（例如75%）会产生一项a nontrivial and meaningful(不平凡且有意义)的自监督任务。将这两种设计结合起来，使我们能够高效地训练大型模型：我们加快训练速度（提高3倍或更多），并提高精度。我们的可扩展方法允许学习具有良好通用性的高容量模型：例如，在仅使用ImageNet-1K数据的方法中，vanilla ViT-Huge模型的精度最高（87.8%）。下游任务中的迁移性能优于有监督的预训练，并表现出良好的伸缩行为.(自监督效果很好，主要用来做迁移学习)

MAE 结构

图片输入切分成小patch，使用mask遮挡一些patch，将未遮挡的patch拉伸成向量做encoder，之后将遮挡的patch（只有位置信息的embedding）和未遮挡做完encoder 的patch按照之前的顺序放回，现在还是被拉伸的状态（向量）。encoder过程结束，将组合完成的向量输入decoder，解码器会尝试把遮挡部位里面的像素信息全部重构回来。（对ViT有了几倍的加速）

上面整个流程是做预训练的步骤，如果使用MAE做计算机任务，只需要编码器，不需要解码器，只需要需输入图像，不允许对图像切分。

各类数据集测试效果

ImageNet

遮挡80%patch

COCO

遮挡80%patch

遮挡各类图像和不用比例遮挡效果

效果惊人

Discussion and Conclusion（结论）

扩展性好的简单算法是深度学习的核心（看似简单其实很难实现，指着对小部分人的简单）。在NLP中，简单的self-supervised学习方法（例如[47,14,48,4]）可以从指数缩放模型中获益。在计算机视觉中，尽管在自我监督学习方面取得了进展，但实际的预培训模式仍主要受到监督（例如[33,51,25,16]）。在这项研究中，我们在ImageNet和转移学习中观察到，自动编码器——一种简单的自我监督方法，类似于NLP中的技术——提供了可扩展的优势。CV中的自我监督学习现在可能正走上与NLP类似的轨道。

另一方面，我们注意到，图像和语言是signals of a different nature，必须仔细处理这种差异。图像只是光照记录，没有语义分解成文字的视觉模拟。我们没有尝试删除对象，而是删除了最有可能不构成语义段的随机patches。同样，我们的MAE重建像素，而像素不是语义实体。然而，我们观察到（如图4），我们的MAE推断出复杂的整体重建，表明它已经学习了许多视觉概念，即语义。我们假设这种行为是通过MAE内部丰富的隐藏表征发生的。我们希望这一观点将启发未来的工作。（虽然图像的语义信息不像文本的语义信息那么明显，图像中冗余了更多的信息，但是这种情况下MAE还是可以很好的学习到隐藏信息。）

更广泛的影响：提出的方法基于训练数据集的学习统计数据预测内容，因此将反映这些数据中的偏见，包括具有负面社会影响的偏见。模型可能会生成不存在的内容。这些问题需要进一步的研究和考虑，在这项工作的基础上生成图像。

1、Introduction

深度学习见证了能力和容量不断增长的体系结构的爆炸式增长[33,25,57]。在硬件快速增长的帮助下，如今的模型很容易超过100万张图像[13]，并开始需要数亿张通常无法公开获取的标签图像[16]。

自然语言处理（NLP）通过自我监督的预训练成功地解决了这种对数据的需求。这些解决方案基于GPT[47,48,4]中的自回归语言建模和BERT[14]中的屏蔽自动编码，在概念上很简单：它们删除部分数据，并学习预测删除的内容。这些方法现在可以训练包含超过1000亿个参数的可推广NLP模型[4]。

masked autoencoders是一种更通用的去噪自动编码器[58]，它的想法很自然，也适用于计算机视觉。事实上，密切相关的研究在视觉[59,46]中，他领先于BERT。然而，尽管随着BERT的成功，人们对这个想法产生了极大的兴趣，但视觉中自动编码方法的进展却落后于NLP。我们问：是什么让masked autoencoders在视觉和语言之间有所不同？我们试图从以下角度回答这个问题：

1）直到最近，二者的架构还是不同的。在视觉上，卷积网络[34]在过去十年中占主导地位[33]。卷积通常在规则网格上运行，将‘indicators’（如mask tokens [14] or positional embeddings [57]）集成到卷积网络中并不容易。然而，随着Vision Transformers（ViT）[16]的引入，这一architectural差距得到了解决，不应再构成障碍。（无法添加掩码和位置信息的问题已经解决）

2）语言和视觉的信息密度是不同的。语言是人类产生的、语义和信息高度密集的信号。当训练一个模型来预测每个句子中只有几个漏掉的单词时，这项任务似乎可以诱导复杂的语言理解。相反，图像是具有高度空间冗余的自然信号，例如，可以从几乎没有高水平的相邻patches.中恢复缺失的斑块不理解部分、对象和场景。为了克服这种差异并鼓励学习有用的特性，我们展示了一种简单的策略在计算机视觉中很有效：masking a very high portion of random patches（屏蔽很大一部分随机patches.）。这种策略在很大程度上减少了冗余，并创建了一个具有挑战性的自我监督任务，这需要对低级别图像统计之外的整体理解。要从质量上了解我们的重建任务，请参见图2-4。（图像冗余信息太多，语言中每个词都具有比较高的语义，为了解决图像信息冗余的情况，使用遮挡大面积patch构建自监督任务。让模型更关注全局信息，而不是学习局部的特征修复patch中的插值）

3）自动编码器的解码器将潜在表示映射回输入，在重建文本和图像之间起着不同的作用。在视觉中，解码器重建像素，因此其输出的语义级别低于普通识别任务。这与语言不同，在语言中，解码器预测包含丰富语义信息的缺失单词。虽然在BERT中，解码器可能是微不足道的（一个MLP）[14]，但我们发现，对于图像，解码器设计在确定学习到的潜在表示的语义水平方面起着关键作用。

在这种分析的推动下，我们提出了一种简单、有效、可扩展的蒙面自动编码器（MAE），用于视觉表征学习。我们的MAE从输入图像中屏蔽随机patches，并在像素空间中重建缺失的patches。它有一个不对称的编码器设计。我们的编码器只在可见的patches子集上运行（没有掩码标记），我们的解码器是轻量级的，它通过潜在表示和掩码令牌重建输入（图1）。在我们的非对称编码器-解码器中，将掩码令牌转移到小型解码器会大大减少计算量。在这种设计下，非常高的掩蔽率（例如75%）可以实现双赢：它优化了精度，同时允许编码器只处理一小部分（例如25%）patches.。这可以将总体预训练时间减少3倍或更多，同样可以减少内存消耗，使我们能够轻松地将MAE扩展到大型模型。

我们的MAE学习非常高容量的模型，这些模型具有很好的通用性。通过MAE预训练，我们可以在ImageNet-1K上训练像ViT-Large/-Huge [16]这样的数据饥饿（小数据量）模型，从而提高泛化性能。使用vanilla ViT-Huge model，在ImageNet-1K上进行微调时，我们实现了87.8%的精度。这比之前所有只使用ImageNet-1K数据的结果都要好。我们还评估了转移学习在目标检测、实例分割和语义分割方面的应用。在这些任务中，我们的预训练比受监督的预训练获得了更好的结果，更重要的是，我们通过扩展模型观察到了显著的收益。这些观察结果与NLP自我监督预训练[14,47,48,4]中的观察结果一致，我们希望它们能让我们的领域探索类似的轨迹。

2、Related Work

Masked language modeling及其自回归模型，例如BERT[14]和GPT[47,48,4]，是NLP中非常成功的预训练方法。这些方法保留了部分输入序列，并训练模型来预测缺失的内容。这些方法已经被证明具有很好的可扩展性[4]，大量证据表明，这些经过预训练的表示法可以很好地推广到各种下游任务。

Autoencoding是学习表征的经典方法。它有一个将输入映射到潜在表示的编码器和一个重建输入的解码器。例如，PCA和k-means是自动编码器[29]。去噪自动编码器（DAE）[58]是一类破坏输入信号（添加噪音）并学习重建原始未破坏信号的自动编码器。可以将一系列方法视为不同损坏下的广义DAE，例如，掩蔽像素[59,46,6]或移除颜色通道[70]。我们的MAE是一种去噪自动编码，但在许多方面不同于经典的DAE。

Masked image encoding方法从被蒙版损坏的图像中学习表示。[59]的开创性工作将掩蔽作为DAE中的一种噪声类型。上下文编码器[46]使用卷积网络修复大型缺失区域。受NLP成功的推动，最近的相关方法[6,16,2]基于Transformers[57]。iGPT[6]对像素序列进行操作，并预测未知像素。ViT论文[16]研究了用于自监督学习的遮罩patch预测。最近，BEiT[2]提出预测discrete tokens[44,50]。

Self-supervised learning方法对计算机视觉产生了极大的兴趣，通常专注于不同的 pretext tasks进行预训练[15,61,42,70,45,17]。最近，对比学习[3,22]已经很流行，例如[62,43,23,7]，它对两个或多个视图之间的图像相似性和差异性（或仅相似性[21,8]）进行建模。对比和相关方法强烈依赖于数据扩充[7,21,8]。自动编码追求一个概念上不同的方向，它表现出我们将要展示的不同行为。

3. Approach

我们的掩蔽自动编码器（MAE）是一种简单的自动编码方法，根据原始信号的部分观察结果重建原始信号。与所有自动编码器一样，我们的方法有一个编码器，将观察到的信号映射到潜表示，还有一个解码器，从潜在表示中重建原始信号。与经典的自动编码器不同，我们采用了一种非对称设计，允许编码器仅对部分观察到的信号（不带掩码标记）进行操作（为了节省生开销），并采用一个轻量级解码器，从潜在表示和掩码标记重建完整信号。图1说明了接下来介绍的想法。

Masking：在ViT[16]之后，我们将图像分割为规则的非重叠patches。然后我们对一部分patches进行采样，并屏蔽（即移除）剩余的patches。我们的采样策略很简单：我们在不替换的情况下随机采样，遵循均匀分布。我们简单地称之为“随机抽样”。

Random sampling with a high masking ratio（即移除的patches的比率）在很大程度上消除了冗余，因此产生了一个无法通过从可见的相邻patches中外推来轻松解决的任务（见图2-4）。均匀分布可防止潜在的中心偏移（即，图像中心附近有更多遮罩patches）。最后，高度稀疏的输入为设计高效编码器创造了机会，下面介绍。

MAE encoder：我们的编码器是ViT[16]，但仅适用于可见的、未屏蔽的patches。就像在标准ViT中一样，我们的编码器通过添加位置嵌入的线性投影嵌入patches，然后通过一系列变换块处理结果集。然而，我们的编码器只在完整集合的一小部分（例如25%）上运行。去除遮掩的patches；不使用Masked patches。这使我们能够用一小部分计算和内存来训练非常大的编码器。整个集合由轻量级解码器处理，如下所述。

MAE decoder ：MAE解码器的输入是由（i）编码可见patches和（ii）掩码令牌组成的全套令牌。参见图1。每个掩码标记[14]都是一个共享的学习向量，表示存在要预测的错误patches。我们向这个完整集合中的所有标记添加位置嵌入；如果没有这一点，掩码令牌将没有关于其在图像中位置的信息。解码器还有一系列变换块。

MAE解码器仅在预训练期间用于执行图像重建任务（仅编码器用于生成用于识别的图像表示）。因此，解码器架构可以以独立于编码器设计的方式灵活设计。我们用非常小的解码器进行实验，比编码器更窄、更浅。例如，与编码器相比，我们的默认解码器每个令牌的计算量小于10%。在这种非对称设计中，全套令牌仅由轻量级解码器处理，这大大减少了训练前的时间。

Reconstruction target：我们的MAE通过预测每个mask patches的像素值来重建输入。解码器输出中的每个元素都是代表一个patches的像素值向量。解码器的最后一层是一个线性投影，其输出通道的数量等于一个patches中像素值的数量。解码器的输出被重塑，以形成重建图像。我们的损失函数计算像素空间中重建图像和原始图像之间的均方误差（MSE）。我们只计算mask patches的损失，类似于BERT[14]

我们还研究了一种变体，其重建目标是每个遮罩patches的归一化像素值。具体来说，我们计算一个patches中所有像素的平均值和标准偏差，并使用它们来规范化这个patches。在我们的实验中，使用归一化像素作为重建目标提高了表示质量。

Simple implementation：我们的MAE pre-training可以有效实施，而且重要的是，不需要任何专门的操作。首先，我们为每个输入面片生成一个标记（通过添加位置嵌入的线性投影）。接下来，我们随机洗牌令牌列表，并根据掩蔽率移除列表的最后一部分（只保留需要比例的前面部分，例如掩码率为75%，那么在shuffle之后就保留前25%做计算）。这个过程为编码器生成一小部分令牌，相当于在不替换的情况下采样补丁。编码后，我们将掩码标记列表附加到已编码补丁列表中，并取消填充该完整列表（反转随机洗牌操作），以将所有标记与其目标对齐。解码器应用于这个完整列表（添加了位置嵌入）。如前所述，不需要稀疏操作。由于shuffle和unshuffle操作的速度很快，这个简单的实现带来的开销可以忽略不计。