Abstract — 摘要
This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, we develop an asymmetric encoder-decoder architecture, with an encoder that operates only on the visible subset of patches (without mask tokens), along with a lightweight decoder that reconstructs the original image from the latent representation and mask tokens. Second, we find that masking a high proportion of the input image, e.g., 75%, yields a nontrivial and meaningful self-supervisory task. Coupling these two designs enables us to train large models efficiently and effectively: we can accelerate training by 3x or more and improve accuracy. Our scalable approach allows for learning high-capacity models that generalize well: e.g., a vanilla ViT-Huge model achieves the best accuracy (87.8%) among methods using only ImageNet-1K data. Transfer performance in downstream tasks outperforms supervised pre-training and shows promising scaling behavior.
本文展示遮罩自編碼器(MAE)是可擴展的電腦視覺自監督學習器。MAE 的方法十分簡潔:隨機遮罩輸入影像的區塊並重建缺失的像素。其核心設計有二。第一,採用非對稱編碼器-解碼器架構,編碼器僅處理可見的區塊子集(不使用遮罩標記),搭配輕量解碼器從潛在表示與遮罩標記重建原始影像。第二,以極高比例(如 75%)遮罩輸入影像,可產生有意義且非平凡的自監督任務。結合這兩項設計,能有效率地訓練大型模型:訓練加速三倍以上且提升準確率。此可擴展的方法能學習到泛化良好的高容量模型:例如,原生 ViT-Huge 模型在僅使用 ImageNet-1K 資料的方法中達到最佳準確率(87.8%)。在下游任務的遷移表現優於監督式預訓練,並展現出良好的擴展趨勢。
段落功能
全文總覽——以精煉語句概括 MAE 的設計理念、核心成果與遷移表現。
邏輯角色
摘要扮演「承諾與預告」的雙重功能:先承諾 MAE 是可擴展的自監督方法,再以「兩大核心設計」與「87.8% 準確率」等具體數字支撐此承諾,最後以遷移學習結果擴大論文的影響範圍。
論證技巧 / 潛在漏洞
「簡潔」一詞被反覆強調,與深度學習社群偏好簡約解的審美呼應。但 87.8% 的成績需要 ViT-Huge 模型與 448 尺寸微調,計算成本本身並不「簡潔」——作者的「簡潔」指方法論設計而非實際資源需求,這點讀者需加以區辨。
1. Introduction — 緒論
Deep learning architectures continue growing in capability and capacity, yet models easily overfit one million images and demand hundreds of millions of labeled images. Self-supervised pre-training has successfully addressed this in natural language processing through autoregressive language modeling (GPT) and masked autoencoding (BERT), enabling training of models exceeding one hundred billion parameters. The methodological gap between NLP and vision motivates a fundamental question: what makes masked autoencoding different between vision and language?
深度學習架構的能力與容量持續增長,然而模型容易在百萬張影像上過擬合,且需要數億張標註影像。自監督預訓練透過自迴歸語言建模(GPT)和遮罩自編碼(BERT),已在自然語言處理領域成功解決此問題,使得超過千億參數的模型訓練成為可能。自然語言處理與電腦視覺之間的方法論落差引出了一個核心問題:遮罩自編碼在視覺與語言之間的差異究竟源於何處?
段落功能
建立問題意識——指出視覺領域在自監督預訓練上落後於 NLP 的現象。
邏輯角色
論證鏈的起點:以 NLP 的巨大成功作為參照系,凸顯視覺領域的「未竟之業」。「什麼使得遮罩自編碼在視覺與語言之間不同」這個提問為全文的三段式分析(架構、資訊密度、解碼器角色)奠定了框架。
論證技巧 / 潛在漏洞
以 NLP 的成功為錨點來框定視覺問題,是一種強有力的修辭策略——暗示視覺只要找到正確的方法就能複製 NLP 的成功。但兩個領域的根本差異(連續像素 vs. 離散語彙)使得直接類比未必成立。
We attempt to answer this question from three perspectives. (i) Architectural differences: Until recently, convolutional networks dominated vision, and convolutions operate on regular grids, making it nontrivial to integrate mask tokens or positional embeddings. Vision Transformers (ViT) have addressed this architectural gap. (ii) Information density: Languages are human-generated signals that are highly semantic and information-dense. Images, in contrast, are natural signals with heavy spatial redundancy — a missing patch can be recovered from neighboring patches with little high-level understanding of parts, objects, and scenes. To overcome this difference, we show that masking a very high portion of random patches (e.g., 75%) largely reduces redundancy and creates a challenging self-supervisory task that requires holistic understanding. (iii) The decoder's role differs between vision and language. In vision, the decoder reconstructs pixels, which is a task of a lower semantic level than recognition. In language, the decoder predicts missing words that contain rich semantic information. In BERT, the decoder can be trivial (an MLP), whereas in our method, the decoder design plays a key role in determining the semantic level of the learned latent representations.
我們從三個視角嘗試回答此問題。(一)架構差異:直到近期,摺積網路主導了視覺領域,而摺積在規則網格上運作,難以直接整合遮罩標記或位置嵌入。視覺 Transformer(ViT)的出現彌補了此架構落差。(二)資訊密度:語言是人類產生的訊號,語義豐富且資訊密度極高。影像則是帶有大量空間冗餘的自然訊號——缺失的區塊可從鄰近區塊恢復,幾乎不需對物件或場景的高階理解。為克服此差異,我們發現以極高比例(如 75%)遮罩隨機區塊,能大幅降低冗餘並創造需要整體性理解的高難度自監督任務。(三)解碼器的角色在視覺與語言中截然不同。在視覺中,解碼器重建像素,這是語義層次較低的任務;在語言中,解碼器預測包含豐富語義的缺失詞彙。BERT 中解碼器可以是簡單的 MLP,而在本方法中,解碼器的設計對所學潛在表示的語義層次起著關鍵作用。
段落功能
分析框架建構——系統性地拆解視覺與語言在遮罩自編碼上的三層差異。
邏輯角色
這段是全文智識深度的核心所在。三層分析各自引出一個設計決策:(i) 架構 -> 使用 ViT;(ii) 資訊密度 -> 高遮罩比例;(iii) 解碼器角色 -> 非對稱設計。每個觀察都自然銜接到 MAE 的對應設計,展現了問題驅動的方法論建構。
論證技巧 / 潛在漏洞
三段式分析極具條理,但「影像具有大量空間冗餘」的論斷是否普適值得商榷——高頻紋理區域的冗餘遠低於平滑區域。此外,將像素重建定位為「語義層次較低的任務」為後續實驗中 MAE 確實學到高階語義的結果埋下了認知張力。
Our MAE approach masks random patches from the input image and reconstructs the missing pixels. It has an asymmetric encoder-decoder design. Our encoder is a ViT that operates only on the visible (unmasked) subset of patches, with no mask tokens. Our decoder is lightweight and reconstructs the full image from the latent representation together with mask tokens. Shifting the mask tokens to the small decoder reduces computation greatly. Under this design, a very high masking ratio (e.g., 75%) achieves a win-win scenario: it optimizes accuracy while allowing the encoder to process only a small portion (e.g., 25%) of patches, reducing overall pre-training time by 3x or more, and similarly reducing memory consumption. This enables training even larger models. MAE can train ViT-Large/-Huge on ImageNet-1K with improved generalization performance. With MAE pre-training, we can train data-hungry models like ViT-Large/-Huge on ImageNet-1K, achieving 87.8% when fine-tuned on ImageNet-1K.
MAE 的方法是遮罩輸入影像的隨機區塊並重建缺失的像素,採用非對稱編碼器-解碼器設計。編碼器是一個 ViT,僅處理可見(未遮罩)的區塊子集,不使用遮罩標記。解碼器是輕量的,從潛在表示與遮罩標記共同重建完整影像。將遮罩標記移至小型解碼器大幅降低了計算量。在此設計下,極高的遮罩比例(如 75%)實現了雙贏:既最佳化準確率,又讓編碼器僅處理少量區塊(如 25%),將整體預訓練時間減少三倍以上,記憶體消耗亦同步降低,從而能訓練更大的模型。MAE 可在 ImageNet-1K 上訓練 ViT-Large 與 ViT-Huge,並在微調後達到 87.8% 的準確率。
段落功能
方案預覽——將前述分析直接映射為具體的設計方案,並給出效率與精度數字。
邏輯角色
承接三段分析,此段完成「問題 -> 方案」的過渡。「雙贏」一詞是修辭亮點:高遮罩既是更困難的學習任務(提升表示品質),又減少了計算量(提升效率),這種正向耦合關係是 MAE 設計中最具說服力的論點。
論證技巧 / 潛在漏洞
「雙贏」的論述具有強大的說服力,但需注意此處報告的 87.8% 是在 448 尺寸下微調的結果,而非標準 224 尺寸。此外,ViT-Huge 模型本身的參數量龐大,「簡潔」的定位與大模型的使用之間存在一定的張力。
2. Related Work — 相關工作
Masked language modeling and its autoregressive counterpart, as represented by BERT and GPT, are highly successful methods for pre-training in NLP. These methods hold out a portion of the input sequence and train models to predict the removed content. They scale excellently and show strong evidence of generalization across downstream tasks. Autoencoding is a classical approach to representation learning: an encoder maps inputs to a latent representation and a decoder reconstructs the input. Denoising autoencoders (DAE), a key variant, corrupt the input signal and learn to reconstruct the original. Masked image modeling can be viewed as a form of denoising autoencoding where the corruption is patch removal.
遮罩語言建模及其自迴歸變體(以 BERT 和 GPT 為代表)是 NLP 中極為成功的預訓練方法。這些方法保留輸入序列的部分內容,訓練模型預測被移除的部分,展現出卓越的可擴展性與跨下游任務的泛化能力。自編碼器是表示學習的經典方法:編碼器將輸入映射至潛在表示,解碼器則重建輸入。去噪自編碼器(DAE)是其重要變體,透過損壞輸入訊號並學習重建原始訊號。遮罩影像建模可視為一種去噪自編碼,其中「損壞」即為區塊移除。
段落功能
文獻脈絡建構——將 MAE 置於 NLP 預訓練與經典自編碼器的交匯處。
邏輯角色
建立 MAE 的學術譜系:BERT/GPT(NLP 遮罩建模)+ DAE(經典自編碼)-> MAE(視覺遮罩自編碼)。這種雙重傳承賦予 MAE 既有理論根基又有實踐先例的定位。
論證技巧 / 潛在漏洞
將遮罩影像建模定位為 DAE 的特例,降低了方法的新穎性門檻,使之更易被接受。但這也引出一個問題:如果 DAE 的概念早已存在,為何此方法現在才成功?作者在緒論中以 ViT 的出現來回答此問題。
Masked image encoding methods learn representations from mask-corrupted images. Context Encoder inpaints large missing regions using convolutional networks. More recent Transformer-based methods include iGPT, which operates on pixel sequences, ViT studies that explore masked patch prediction, and BEiT, which predicts discrete visual tokens from a pre-trained tokenizer. Meanwhile, self-supervised contrastive learning methods have gained prominence, modeling image similarity and dissimilarity across augmented views. Contrastive methods depend heavily on data augmentation strategies, whereas autoencoding pursues a conceptually different direction. Our approach is related to all these works but differs in its simplicity and effectiveness: we demonstrate that simple pixel reconstruction with an asymmetric design outperforms or matches more complex token-based or contrastive approaches.
遮罩影像編碼方法從遮罩損壞的影像中學習表示。Context Encoder 使用摺積網路修復大面積缺失區域。近期基於 Transformer 的方法包括:操作像素序列的 iGPT、探索遮罩區塊預測的 ViT 研究,以及使用預訓練分詞器預測離散視覺標記的 BEiT。與此同時,自監督對比學習方法日漸受到重視,透過建模增強視圖之間的影像相似性與差異性。對比學習方法高度依賴資料增強策略,而自編碼走的是另一條路線。MAE 與上述研究皆有關聯,但以簡潔性與有效性為區別:簡單的像素重建搭配非對稱設計,即可超越或比肩更複雜的標記式或對比式方法。
段落功能
差異化定位——將 MAE 與近期遮罩影像方法及對比學習進行對比。
邏輯角色
此段建立了 MAE 在當前研究圖譜中的座標:非 iGPT(不操作像素序列)、非 BEiT(不需分詞器)、非對比學習(不依賴增強策略)。透過排除法,MAE 的「簡潔性」優勢自然浮現。
論證技巧 / 潛在漏洞
強調對比學習依賴資料增強是一個策略性的對比——MAE 的高遮罩比例本身也扮演類似資料增強的角色,只是以不同的形式呈現。此外,BEiT 的分詞器雖增添了複雜度,但也可能捕捉到像素空間所缺乏的語義結構。
3. Approach — 方法
3.1 Masking — 遮罩策略
Following ViT, we divide an image into regular non-overlapping patches. Then we sample a subset of patches and mask (i.e., remove) the remaining ones. Our sampling strategy is straightforward: we sample random patches without replacement, following a uniform distribution. We refer to this as "random sampling". Random sampling with a high masking ratio largely eliminates redundancy, thus creating a task that cannot be easily solved by extrapolation from visible neighboring patches. The uniform distribution prevents potential center bias that could arise from other sampling strategies. Furthermore, the highly sparse input creates an opportunity for an efficient encoder design that processes only visible patches.
依循 ViT 的作法,將影像分割為規則、不重疊的區塊。接著取樣一個區塊子集,並將其餘區塊遮罩(即移除)。取樣策略十分直截:依均勻分布進行無放回的隨機取樣。高遮罩比例的隨機取樣大幅消除了冗餘,從而創造出無法僅靠鄰近可見區塊外推即可輕易解決的任務。均勻分布防止了其他取樣策略可能產生的中心偏差。此外,高度稀疏的輸入為僅處理可見區塊的高效編碼器設計提供了契機。
段落功能
方法第一步——定義遮罩的規則與取樣策略。
邏輯角色
遮罩策略是整個方法的起點,且直接影響後續的編碼器效率設計。「隨機取樣 + 高比例遮罩」同時服務於兩個目標:任務難度(學習品質)與計算效率。
論證技巧 / 潛在漏洞
將簡單的均勻隨機取樣定位為刻意的設計選擇(防止中心偏差、消除冗餘),而非僅是預設選項,展現了有目的的方法論建構。後續消融研究會比較區塊式與網格式取樣,進一步驗證此選擇的合理性。
3.2 MAE Encoder — MAE 編碼器
Our encoder is a Vision Transformer (ViT) but applied only to visible, unmasked patches. Just as in a standard ViT, our encoder embeds patches by a linear projection with added positional embeddings, and then processes the resulting set of tokens through a series of Transformer blocks. However, our encoder only operates on a small subset (e.g., 25%) of the full set. Masked patches are removed; no mask tokens are used. This allows us to train very large encoders with only a fraction of compute and memory. The full set is handled by a lightweight decoder, described next.
編碼器是一個視覺 Transformer(ViT),但僅作用於可見的未遮罩區塊。如同標準 ViT,編碼器透過線性投影加上位置嵌入來嵌入區塊,然後將所得的標記集合送入一系列 Transformer 區塊處理。然而,編碼器僅處理完整集合的一小部分(如 25%)。被遮罩的區塊直接移除,不使用遮罩標記。這使得僅需一小部分計算量與記憶體即可訓練極大的編碼器。完整集合的處理由接下來描述的輕量解碼器負責。
段落功能
核心設計之一——說明編碼器僅處理可見區塊的關鍵設計。
邏輯角色
「不使用遮罩標記」是 MAE 相對於 BERT 和 BEiT 最關鍵的架構差異。此設計直接帶來效率優勢(處理 25% 的標記),且消除了預訓練與部署之間的分布偏移問題(部署時不存在遮罩標記)。
論證技巧 / 潛在漏洞
此設計看似簡單,但打破了 BERT 的慣例(BERT 在編碼器中使用 [MASK] 標記)。作者將此定位為效率創新,但更深層的意義在於:編碼器永遠只看到真實區塊,學到的表示更貼近下游部署場景。這一洞察對後續的視覺基礎模型設計產生了深遠影響。
3.3 MAE Decoder — MAE 解碼器
The MAE decoder is applied to the full set of tokens consisting of (i) encoded visible patches, and (ii) mask tokens. Each mask token is a shared, learned vector that indicates the presence of a missing patch to be predicted. We add positional embeddings to all tokens in this full set; without positional embeddings, mask tokens would have no information about their location in the image. The decoder has another series of Transformer blocks. The MAE decoder is only used during pre-training to perform the image reconstruction task. Therefore, the decoder architecture can be flexibly designed in a manner that is independent of the encoder design. We experiment with very small decoders, narrower and shallower than the encoder. For example, our default decoder has <10% computation per token vs. the encoder. With this asymmetrical design, the full set of tokens is only processed by the lightweight decoder, significantly reducing pre-training time.
MAE 解碼器作用於完整的標記集合,包含:(i) 經編碼的可見區塊,與 (ii) 遮罩標記。每個遮罩標記是一個共享的可學習向量,表示需要預測的缺失區塊。在完整集合的所有標記上加入位置嵌入——若無位置嵌入,遮罩標記將缺乏關於其在影像中位置的資訊。解碼器包含另一系列 Transformer 區塊。MAE 解碼器僅在預訓練階段用於執行影像重建任務,因此解碼器架構可獨立於編碼器設計進行靈活配置。實驗使用極小的解碼器,比編碼器更窄更淺。例如,預設解碼器每個標記的計算量不到編碼器的 10%。透過此非對稱設計,完整的標記集合僅由輕量解碼器處理,顯著降低了預訓練時間。
段落功能
核心設計之二——詳述輕量解碼器的設計與非對稱架構的效率優勢。
邏輯角色
解碼器的「用後即棄」特性是效率與品質雙贏的關鍵機制:既然解碼器僅在預訓練時使用,將計算負擔從編碼器轉移到輕量解碼器就不會影響下游推論效率。這種「預訓練時間的成本 vs. 推論時間的品質」的取捨極為精巧。
論證技巧 / 潛在漏洞
「不到 10% 的計算量」是一個令人印象深刻的數字,清楚傳達了非對稱設計的效率。但值得注意的是,解碼器雖小,卻處理完整的標記集合(100%),而編碼器雖大卻僅處理 25%。整體的計算平衡需要更細緻的分析。
3.4 Reconstruction Target — 重建目標
Our MAE reconstructs the input by predicting the pixel values for each masked patch. Each element in the decoder's output is a vector of pixel values representing a patch. The last layer of the decoder is a linear projection whose number of output channels equals the number of pixel values in a patch. The loss function computes the mean squared error (MSE) between the reconstructed and original images in the pixel space. We compute the loss only on masked patches, similar to BERT. We also study a variant whose reconstruction target is the normalized pixel values of each masked patch. Specifically, we compute the mean and standard deviation of all pixels in a patch and use them to normalize this patch. Using per-patch normalized pixels as the reconstruction target improves representation quality in our experiments.
MAE 透過預測每個被遮罩區塊的像素值來重建輸入。解碼器輸出的每個元素是一個像素值向量,代表一個區塊。解碼器的最後一層是線性投影,其輸出通道數等於一個區塊中的像素值數量。損失函數在像素空間中計算重建影像與原始影像之間的均方誤差(MSE),且僅在被遮罩的區塊上計算,類似於 BERT。亦研究了一個變體,以每個被遮罩區塊的正規化像素值作為重建目標——具體而言,計算區塊內所有像素的平均值與標準差來進行正規化。實驗顯示,使用逐區塊正規化像素作為重建目標能改善表示品質。
段落功能
技術細節——定義損失函數與重建目標的選擇。
邏輯角色
重建目標的選擇直接回應緒論中「像素重建是低語義任務」的擔憂。逐區塊正規化提升了高頻成分的權重,暗示學習局部對比度比學習絕對亮度更有助於表示品質。
論證技巧 / 潛在漏洞
僅在遮罩區塊上計算損失是一個重要的設計選擇(相較於在所有像素上計算)。作者報告全像素損失導致約 0.5% 的準確率下降,但未深入分析原因。此外,逐區塊正規化雖有效,卻使模型忽略了全局亮度資訊,可能在某些下游任務中造成影響。
Simple implementation. MAE pre-training can be implemented efficiently, and does not need any specialized sparse operations. First, we generate tokens for every input patch (with linear projection and positional embeddings). Next, we randomly shuffle the list of tokens and remove the last portion according to the masking ratio. This is equivalent to sampling patches without replacement. After encoding, we append a list of mask tokens to the list of encoded patches, and unshuffle this full list to align all tokens with their targets. The decoder is applied to this full list (with positional embeddings added). As noted, no sparse operations are needed. This simple implementation introduces negligible overhead as random shuffling and unshuffling are fast.
MAE 預訓練的實作非常高效,不需要任何特殊的稀疏運算。首先,為每個輸入區塊生成標記(透過線性投影與位置嵌入)。接著,隨機打亂標記列表並依遮罩比例移除末尾部分,等價於無放回取樣。編碼後,將遮罩標記列表附加到已編碼區塊列表中,並反向打亂此完整列表以對齊所有標記與其目標。解碼器作用於此完整列表(加入位置嵌入)。不需要稀疏運算,此簡潔的實作僅引入可忽略的額外開銷,因為隨機打亂與反向打亂都極為快速。
段落功能
工程實現——展示 MAE 的實作簡潔性與工程可行性。
邏輯角色
此段將方法論的簡潔性從理論層面延伸到工程層面:無需稀疏運算、僅用 shuffle/unshuffle 即可實現,大幅降低了重現門檻。這對方法的社群影響力至關重要。
論證技巧 / 潛在漏洞
以「shuffle + remove + unshuffle」替代稀疏索引是一個精巧的工程技巧,使得標準 Transformer 框架無需修改即可使用。這種實作友善性是 MAE 被廣泛採用的重要原因之一,體現了「好方法不僅要有效,還要容易實現」的設計哲學。
4. ImageNet Experiments — ImageNet 實驗
Self-supervised pre-training is performed on ImageNet-1K (IN1K). We then evaluate representations by (i) end-to-end fine-tuning or (ii) linear probing, and report top-1 validation accuracy on ImageNet-1K. We use ViT-Large (ViT-L/16) as the backbone for ablation studies. ViT-L is very large and tends to overfit when trained from scratch: the original ViT-L achieved only 76.5% from scratch, while our improved implementation achieves 82.5% from scratch. MAE pre-training boosts this to 84.9% with fine-tuning for only 50 epochs (vs. 200 from scratch). On masking ratio: the optimal ratio is surprisingly high at 75% for both fine-tuning and linear probing. This is in stark contrast with BERT's typical 15% masking ratio, and also much higher than related work in vision (20-50%).
自監督預訓練在 ImageNet-1K 上執行,隨後以端到端微調或線性探測評估表示品質,報告 ImageNet-1K 的 top-1 驗證準確率。使用 ViT-Large(ViT-L/16)作為消融研究的骨幹網路。ViT-L 模型極大,從頭訓練時容易過擬合:原始 ViT-L 從頭訓練僅達 76.5%,改進的實作達 82.5%。MAE 預訓練將此提升至 84.9%,僅需微調 50 個訓練週期(對比從頭訓練的 200 個)。關於遮罩比例:最佳比例出乎意料地高達 75%,無論微調或線性探測皆然。這與 BERT 典型的 15% 遮罩比例形成鮮明對比,也遠高於視覺相關工作的 20-50%。
段落功能
核心消融——以嚴謹的實驗驗證基線提升與最佳遮罩比例。
邏輯角色
此段用具體數字回答緒論提出的「視覺與語言的差異」:75% vs. 15% 的遮罩比例差距,量化了視覺資料中「空間冗餘」的程度。從 76.5% 到 82.5% 再到 84.9% 的遞進,清楚展示了 MAE 預訓練的增量價值。
論證技巧 / 潛在漏洞
75% 遮罩比例是本文最具「驚喜感」的實驗發現,挑戰了社群的直覺預期。但值得注意的是,基線從 76.5% 提升至 82.5% 的改進來自訓練策略(強正則化),而非 MAE 本身。作者誠實地報告了此點,但讀者可能將全部改進歸功於 MAE。
Decoder design. Our MAE decoder can be flexibly designed. Sufficiently deep decoders are important for linear probing — this is explained by the gap between the pixel reconstruction task and recognition: the last several layers in an autoencoder are more specialized for reconstruction but less relevant for recognition. A reasonably deep decoder can account for the reconstruction specialization, leaving the latent representations at a more abstract level, yielding up to 8% improvement in linear probing. With fine-tuning, however, the last layers of the encoder can be tuned for recognition, and decoder depth is less influential — a single-block decoder performs strongly (84.8%). For decoder width, 512 dimensions perform well; our default decoder has 8 blocks, 512-d width, comprising only 9% of ViT-L FLOPs.
解碼器設計可靈活配置。足夠深的解碼器對線性探測很重要——這可由像素重建任務與辨識任務之間的落差來解釋:自編碼器的後幾層更專注於重建,與辨識較不相關。深度合理的解碼器能吸收重建的特化需求,讓潛在表示保持在更抽象的層次,線性探測可提升達 8%。但在微調場景下,編碼器的最後幾層可調整為辨識用途,解碼器深度的影響便不那麼顯著——單一區塊的解碼器即可達到 84.8% 的強勁表現。解碼器寬度方面,512 維表現良好;預設解碼器為 8 層、512 維,僅佔 ViT-L 浮點運算量的 9%。
段落功能
消融分析——量化解碼器設計選擇對不同評估協定的影響。
邏輯角色
此段揭示了一個深刻的洞察:解碼器深度對線性探測影響巨大(8%),但對微調影響甚微。這說明 MAE 的潛在表示在不同抽象層次上都蘊含有用資訊,只是需要不同的讀取方式。
論證技巧 / 潛在漏洞
線性探測與微調結果的分離是重要發現。作者對此的解釋(重建特化 vs. 辨識抽象)具有說服力,但也暗示 MAE 的線性可分離性不如對比學習方法,可能在某些僅支援線性分類器的應用場景中處於劣勢。
Mask token in encoder. If the encoder uses mask tokens, its accuracy drops by 14% under linear probing. With mask tokens, there is a gap between pre-training and deploying: the encoder has a large portion of mask tokens in its input during pre-training, which do not exist in uncorrupted images during deployment. Removing mask tokens from the encoder constrains it to always see real patches, improving representation quality. Moreover, encoder mask token removal reduces training computation by 3.3x in total FLOPs, enabling a 2.8x wall-clock speedup. Data augmentation. MAE works well with cropping-only augmentation. Surprisingly, it performs decently even without augmentation (center-crop only). This is dramatically different from contrastive learning, where removing augmentation leads to 13% and 28% drops for BYOL and SimCLR respectively. In MAE, random masking plays the role of data augmentation: masks create new training samples at every iteration regardless of augmentation.
若編碼器使用遮罩標記,線性探測準確率下降 14%。使用遮罩標記時,預訓練與部署之間存在分布偏移:預訓練時編碼器輸入中有大量遮罩標記,但部署時的完整影像中並不存在。移除編碼器中的遮罩標記迫使其永遠只看到真實區塊,從而提升表示品質。此外,移除遮罩標記使總浮點運算量降低 3.3 倍,達到 2.8 倍的實際加速。在資料增強方面,MAE 僅需裁切增強即可良好運作。出人意料的是,即使完全不使用增強(僅中心裁切),表現仍然可接受。這與對比學習形成鮮明對比——BYOL 和 SimCLR 在移除增強後分別下降 13% 和 28%。在 MAE 中,隨機遮罩本身即扮演了資料增強的角色:不論使用何種增強策略,遮罩在每次迭代中都會創造出新的訓練樣本。
段落功能
兩項關鍵消融——驗證「無遮罩標記」與「低增強依賴」的設計優勢。
邏輯角色
14% 的線性探測下降明確量化了「預訓練-部署偏移」問題的嚴重性,為「編碼器不使用遮罩標記」這一設計提供了強力的反面證據。資料增強消融則進一步強化了 MAE 相對於對比學習的差異化定位。
論證技巧 / 潛在漏洞
「遮罩即增強」的觀點極具洞察力,將遮罩從被動的任務設定提升為主動的正則化機制。與 BYOL/SimCLR 的對比數字(13%/28% 下降)十分有效地凸顯了 MAE 的穩健性。但這也意味著 MAE 的訓練樣本多樣性完全來自遮罩的隨機性,若遮罩模式存在系統性偏差,可能對學習產生未察覺的影響。
Comparisons with previous results. We compare MAE with self-supervised ViT results. For ViT-B, methods perform closely. For ViT-L, gaps between methods become larger, suggesting challenges in reducing overfitting for larger models. MAE scales easily with steady improvements for bigger models. ViT-H (224 size) achieves 86.9% accuracy; fine-tuning at 448 size yields 87.8% using only ImageNet-1K data. Previous best ImageNet-only methods achieved 87.1% (at 512 size) based on advanced network designs. Comparing with BEiT: MAE is more accurate while being simpler and faster. MAE reconstructs pixels rather than discrete tokens; BEiT reported 1.8% degradation when reconstructing pixels with ViT-B. MAE requires no dVAE pre-training and is considerably faster (3.5x per epoch) than BEiT. Even with 1600-epoch training, MAE total pre-training time is 31 hours on 128 TPU-v3 cores, versus MoCo v3's 36 hours for only 300 epochs.
與自監督 ViT 方法進行比較。在 ViT-B 上,各方法表現接近。在 ViT-L 上,方法之間的差距擴大,顯示更大模型的過擬合問題更具挑戰性。MAE 展現了良好的可擴展性,隨模型增大持續改善。ViT-H(224 尺寸)達 86.9% 準確率;448 尺寸微調達 87.8%,僅使用 ImageNet-1K 資料。先前僅使用 ImageNet 的最佳方法(基於進階網路設計、512 尺寸)達 87.1%。與 BEiT 相比:MAE 更準確,同時更簡潔更快速。MAE 重建像素而非離散標記;BEiT 在 ViT-B 上以像素重建時報告了 1.8% 的準確率下降。MAE 不需 dVAE 預訓練,且每訓練週期快 3.5 倍。即使訓練 1600 個週期,MAE 在 128 個 TPU-v3 核心上的總預訓練時間為 31 小時,而 MoCo v3 僅 300 個週期就需 36 小時。
段落功能
全面比較——在準確率、效率、簡潔性三個維度上確立 MAE 的優勢。
邏輯角色
此段是全文論證的高潮,以三組對比鎖定 MAE 的定位:(1) vs. 從頭訓練 -> 可擴展性;(2) vs. BEiT -> 更簡潔更準確;(3) vs. MoCo v3 -> 更快速。87.8% 的數字超越了先前所有僅使用 ImageNet 的方法。
論證技巧 / 潛在漏洞
87.8% 是在 448 尺寸下微調的結果,而 87.1% 的先前最佳是在 512 尺寸下。尺寸差異使得直接比較需謹慎。此外,1600 個訓練週期仍是相當長的訓練——31 小時 vs. 36 小時的比較在每個週期的計算量不對等的情況下,需要更仔細的成本分析。
Partial fine-tuning provides insight into representation quality beyond linear probing and full fine-tuning. We fine-tune the last several Transformer blocks while freezing the rest. Fine-tuning only one Transformer block significantly boosts accuracy from 73.5% (linear probing) to 81.0%. Fine-tuning only the final block's MLP sub-block achieves 79.1%, far better than linear probing. Fine-tuning a few blocks (4 or 6) closely approaches full fine-tuning accuracy. Comparisons with MoCo v3 are revealing: MoCo v3 has higher linear probing accuracy but all MAE partial fine-tuning results outperform MoCo v3, with gaps reaching 2.6% when tuning 4 blocks. While MAE representations have lower linear separability, they possess stronger nonlinear features that perform very well when even minimal non-linear heads are tuned. This observation suggests linear separability is not the sole metric for representation quality.
部分微調提供了超越線性探測與完整微調的表示品質洞察。凍結部分 Transformer 區塊,僅微調最後幾個區塊。僅微調一個 Transformer 區塊即可將準確率從線性探測的 73.5% 大幅提升至 81.0%。僅微調最後一個區塊的 MLP 子區塊即達 79.1%,遠優於線性探測。微調少量區塊(4 或 6 個)即可接近完整微調的準確率。與 MoCo v3 的比較揭示了有趣的現象:MoCo v3 的線性探測準確率更高,但 MAE 在所有部分微調設定下均優於 MoCo v3,差距在微調 4 個區塊時達 2.6%。MAE 的表示雖然線性可分離性較低,但具有更強的非線性特徵,即使僅調整最小限度的非線性讀取頭也能表現出色。此觀察顯示,線性可分離性並非衡量表示品質的唯一指標。
段落功能
深度分析——透過部分微調揭示 MAE 表示的非線性特徵品質。
邏輯角色
此段回應了一個潛在的批評:MAE 的線性探測表現不如對比學習方法。作者不是迴避此弱點,而是以部分微調實驗證明 MAE 的表示蘊含更豐富的非線性特徵,進而質疑「線性探測是表示品質黃金標準」的預設假設。
論證技巧 / 潛在漏洞
這是一個高明的論證策略:將弱點(線性探測較低)轉化為洞察(線性可分離性不等於表示品質)。73.5% -> 81.0% 的躍升(僅調一個區塊)確實支持此論點。但此論述也間接承認,MAE 的表示需要更多的適配才能釋放其潛力,這在資源受限的場景中可能是劣勢。
5. Transfer Learning Experiments — 遷移學習實驗
We evaluate transfer learning on object detection and instance segmentation using Mask R-CNN on COCO, with ViT backbones adapted for use with FPN. Compared with supervised pre-training, MAE performs better under all configurations. With ViT-B, MAE exceeds supervised by 2.4 box AP (50.3 vs. 47.9). More significantly, with ViT-L, MAE outperforms supervised by 4.0 box AP (53.3 vs. 49.3). The gains are larger for bigger models, indicating the scalability benefit of MAE pre-training in transfer scenarios. Pixel-based MAE matches or exceeds token-based BEiT, while being simpler and faster. Both MAE and BEiT outperform MoCo v3, which only matches supervised pre-training.
在 COCO 上使用 Mask R-CNN 評估物件偵測與實例分割的遷移學習表現,ViT 骨幹網路經適配後搭配 FPN 使用。相比監督式預訓練,MAE 在所有配置下皆表現更佳。使用 ViT-B 時,MAE 超越監督式 2.4 box AP(50.3 vs. 47.9)。更顯著的是,使用 ViT-L 時,MAE 領先監督式 4.0 box AP(53.3 vs. 49.3)。更大模型的增益更大,顯示 MAE 預訓練在遷移場景中的可擴展性優勢。基於像素的 MAE 在表現上與基於標記的 BEiT 相當或更優,同時更簡潔更快速。MAE 與 BEiT 皆優於 MoCo v3,而 MoCo v3 僅與監督式預訓練持平。
段落功能
遷移驗證——在偵測與分割任務上證明 MAE 表示的通用性。
邏輯角色
遷移學習結果是判斷預訓練方法實際價值的關鍵證據。ViT-L 上 4.0 AP 的差距比 ViT-B 上 2.4 AP 的差距更大,直接支持了「MAE 的優勢隨模型規模增大而放大」的可擴展性論點。
論證技巧 / 潛在漏洞
較大模型的更大增益是非常有力的論據,暗示 MAE 的可擴展性在未來更大的模型上可能帶來更顯著的收益。但 COCO 的評估使用了特定的 ViT-FPN 適配方案,不同的偵測框架可能產生不同的相對排序。
Semantic segmentation on ADE20K using UperNet shows significant improvements over supervised pre-training, e.g., 3.7 mIoU points for ViT-L. Pixel-based MAE outperforms token-based BEiT on this task as well. Classification on other datasets: On iNaturalists, MAE exhibits strong scaling behavior — bigger models improve considerably, surpassing previous best results. On Places, MAE outperforms previous best results that were obtained through pre-training on billions of images. These transfer results collectively demonstrate that MAE pre-training learns representations that generalize well across diverse visual tasks, and the benefits scale with model capacity.
在 ADE20K 上使用 UperNet 進行語義分割,結果顯示相對於監督式預訓練有顯著改善,例如 ViT-L 提升 3.7 mIoU。基於像素的 MAE 在此任務上同樣優於基於標記的 BEiT。在其他分類資料集上:iNaturalists 上展現出強勁的擴展趨勢——更大模型的準確率大幅提升,超越先前最佳結果。Places 上 MAE 超越了先前透過數十億張影像預訓練所取得的最佳結果。這些遷移學習結果共同證明,MAE 預訓練所學的表示能跨多樣化的視覺任務良好泛化,且效益隨模型容量而擴展。
段落功能
延伸驗證——在分割與多資料集分類上進一步確認 MAE 的泛化能力。
邏輯角色
此段完成遷移學習實驗的全景圖:偵測、分割、細粒度分類、場景辨識四大任務皆優於監督式預訓練。在 Places 上以 ImageNet 預訓練超越數十億影像預訓練的結果,是尤為有力的證據。
論證技巧 / 潛在漏洞
超越「數十億影像預訓練」的結果暗示 MAE 的成功不僅來自資料量,更來自學習目標的設計品質。但需注意不同方法使用的模型架構可能不同,直接歸因於預訓練策略需謹慎。整體而言,多任務的一致性優勢是最具說服力的論據。
6. Discussion and Conclusion — 討論與結論
Simple algorithms that scale well are the core of deep learning. In NLP, simple self-supervised pre-training methods (e.g., masked language modeling) have enabled benefits from the exponential scaling of models. In computer vision, supervised pre-training has dominated despite progress in self-supervised methods. This study observes, on ImageNet and in transfer tasks, that autoencoders — a simple self-supervised method conceptually similar to techniques in NLP — provide scalable benefits in computer vision. Self-supervised learning in vision may now follow a similar trajectory as in NLP.
能良好擴展的簡潔演算法是深度學習的核心。在自然語言處理中,簡潔的自監督預訓練方法(如遮罩語言建模)使得模型的指數級擴展帶來了實際效益。在電腦視覺中,儘管自監督方法有所進展,監督式預訓練仍佔主導地位。本研究在 ImageNet 與遷移任務上觀察到,自編碼器——一種概念上類似 NLP 技術的簡潔自監督方法——在電腦視覺中提供了可擴展的效益。視覺領域的自監督學習或許正走向與 NLP 相似的軌跡。
段落功能
宏觀定位——將 MAE 置於深度學習發展的歷史脈絡中。
邏輯角色
結論的第一部分不急於總結技術細節,而是提出一個更宏大的主張:視覺自監督可能複製 NLP 的成功軌跡。這將 MAE 從一個具體方法提升為一個範式轉移的信號。
論證技巧 / 潛在漏洞
「簡潔演算法是深度學習的核心」是一個強有力的開場,呼應了深度學習社群對 Occam's Razor 的信仰。但 NLP 與視覺的類比需要謹慎——NLP 的成功伴隨著資料集規模的爆炸性增長,而視覺領域的無標註資料雖然豐富,品質與多樣性的保證機制仍不成熟。
On the other hand, we note that images and languages are signals of a different nature and this difference must be addressed carefully. Images are merely recorded light without a semantic decomposition into the visual analogue of words. Rather than removing objects, our method removes random patches that are unlikely to form a semantic segment. Likewise, our MAE reconstructs pixels, which are not semantic entities. Nonetheless, we observe that our MAE infers complex, holistic reconstructions, suggesting it has learned numerous visual concepts, i.e., semantics. We hypothesize this behavior occurs via the rich hidden representations inside the MAE. We hope this perspective will inspire future work.
另一方面,影像與語言本質上是不同性質的訊號,此差異必須審慎對待。影像只是被記錄的光線,沒有類似詞彙的語義分解。本方法移除的是隨機區塊,不太可能構成語義片段;重建的也是像素,同樣不是語義實體。儘管如此,MAE 能夠推斷出複雜、整體性的重建結果,暗示它已學習到大量的視覺概念,亦即語義。我們假設此行為源於 MAE 內部豐富的隱藏表示。期望此觀點能啟發未來的研究。
段落功能
反思與展望——坦承視覺與語言的本質差異,並提出語義湧現的假說。
邏輯角色
此段展現了學術誠實性:在宣稱「視覺可複製 NLP 軌跡」後,立即指出兩者的根本差異。「像素非語義實體,但 MAE 學到了語義」的觀察形成了一個耐人尋味的謎題,為後續研究留下了開放空間。
論證技巧 / 潛在漏洞
「語義湧現」的假說是全文最具啟發性但也最缺乏嚴謹驗證的論點。作者僅以定性重建結果為證,未進行系統性的語義探測(如注意力圖分析或潛在空間的語義結構研究)。這種「留白」策略既保持了學術謙遜,也為後續大量的跟進研究開闢了空間。
論證結構總覽
問題
視覺自監督落後於 NLP
遮罩自編碼在視覺中
為何未成功?
視覺自監督落後於 NLP
遮罩自編碼在視覺中
為何未成功?
→
論點
非對稱編碼-解碼
+ 75% 高遮罩比例
= 可擴展的視覺學習
非對稱編碼-解碼
+ 75% 高遮罩比例
= 可擴展的視覺學習
→
證據
ViT-H 達 87.8%
COCO / ADE20K / Places
全面超越監督式預訓練
ViT-H 達 87.8%
COCO / ADE20K / Places
全面超越監督式預訓練
→
反駁
線性探測不如對比學習
但部分微調全面勝出
線性可分離性非唯一指標
線性探測不如對比學習
但部分微調全面勝出
線性可分離性非唯一指標
→
結論
簡潔的自編碼方法
可使視覺自監督
走向 NLP 的成功軌跡
簡潔的自編碼方法
可使視覺自監督
走向 NLP 的成功軌跡
作者核心主張(一句話)
透過非對稱編碼器-解碼器架構與極高遮罩比例,遮罩自編碼器能夠作為可擴展的視覺自監督學習器,使大型 ViT 模型僅在 ImageNet-1K 上預訓練即可達到或超越先前需要大規模標註資料或複雜方法才能達到的效能。
論證最強處
三段式問題分析與設計對應:從架構(ViT 解鎖了遮罩標記的使用)、資訊密度(75% 遮罩消除冗餘)、解碼器角色(非對稱設計分離重建與辨識)三個視角系統性地分析視覺與語言的差異,每個分析都自然導出一個設計決策。加上全面的消融研究與多任務遷移驗證(偵測、分割、分類一致勝出),形成了從原理到實踐的完整論證閉環。
論證最弱處
語義湧現的機制缺乏深入剖析:MAE 重建像素(非語義實體),卻宣稱學到了語義——此核心矛盾僅以定性的重建可視化為證,缺乏系統性的表示分析。此外,線性探測表現劣於對比學習方法這一事實,雖被巧妙地以「線性可分離性非唯一指標」化解,但在許多實際部署場景(如凍結骨幹加線性分類器)中,此劣勢仍然具有實際影響。