Abstract — 摘要
Segment Anything Model (SAM) has emerged as a powerful tool for numerous vision applications. A key component that drives the impressive performance for zero-shot transfer and high versatility is a super large Transformer model trained on the extensive high-quality SA-1B dataset. While beneficial, the huge computation cost of SAM model has limited its applications to wider real-world applications. To address this limitation, we propose EfficientSAMs, light-weight SAM models that exhibits decent performance with largely reduced complexity. Our idea is based on leveraging masked image pretraining, SAMI, which learns to reconstruct features from SAM image encoder for effective visual representation learning. Further, we take SAMI-pretrained light-weight image encoders and mask decoder to build EfficientSAMs, and finetune the models on SA-1B for segment anything task. We perform evaluations on multiple vision tasks including image classification, object detection, instance segmentation, and semantic segmentation, and find that our proposed pretraining method, SAMI, consistently outperforms other masked image pretraining methods. On segment anything task such as zero-shot instance segmentation, our EfficientSAMs with SAMI-pretrained lightweight image encoders perform favorably with a significant gain (e.g., ~4 AP on COCO/LVIS) over other fast SAM models.
Segment Anything Model(SAM)已成為眾多視覺應用的強大工具。驅動其零樣本遷移能力與高度通用性的關鍵組件,是在大規模高品質 SA-1B 資料集上訓練的超大型 Transformer 模型。儘管效果出色,SAM 龐大的運算成本卻限制了其在更廣泛真實場景中的應用。為解決此限制,本文提出 EfficientSAM——以大幅降低的複雜度維持良好效能的輕量化 SAM 模型。核心構想是利用遮罩影像預訓練方法 SAMI,學習重建 SAM 影像編碼器的特徵以實現有效的視覺表徵學習。接著,以 SAMI 預訓練的輕量影像編碼器與遮罩解碼器建構 EfficientSAM,並在 SA-1B 上微調以執行分割任務。我們在影像分類、物件偵測、實例分割與語意分割等多項視覺任務上進行評估,發現 SAMI 一致優於其他遮罩影像預訓練方法。在零樣本實例分割等分割任務上,EfficientSAM 相較於其他快速 SAM 模型取得顯著增益(如在 COCO/LVIS 上約 4 AP)。
段落功能
全文總覽——以「能力-瓶頸-解方-驗證」四段式結構完整預告論文貢獻。
邏輯角色
摘要同時承擔「問題定義」與「解決方案預告」的雙重功能:先肯定 SAM 的地位,再指出效率瓶頸,最後以 SAMI 預訓練框架作為核心解方,並用具體資料(~4 AP 增益)建立可信度。
論證技巧 / 潛在漏洞
以「~4 AP」的近似數字預告實驗結果,策略性地留下印象而不過度承諾。但「decent performance」的措辭相對保守,暗示與原始 SAM 仍有效能差距——此差距的大小將成為後續論證的關鍵張力。
1. Introduction — 緒論
Segment Anything Model (SAM) has been very successful in the vision field, achieving state-of-the-art performance in a variety of image segmentation tasks. Trained on SA-1B, which contains more than 1B masks from 11M images, SAM demonstrates remarkable zero-shot transfer capabilities across tasks including zero-shot edge detection, zero-shot object proposal generation, and zero-shot instance segmentation. The foundation of SAM lies in a Vision Transformer (ViT) architecture that enables its high versatility and applicability to a wide range of real-world vision applications.
Segment Anything Model(SAM)在視覺領域取得了巨大成功,在多種影像分割任務上達到最先進的效能。SAM 在 SA-1B 資料集(包含來自 1,100 萬張影像的超過 10 億個遮罩)上訓練,展現出卓越的零樣本遷移能力,涵蓋零樣本邊緣偵測、零樣本物件提案生成與零樣本實例分割等任務。SAM 的基礎建立在 Vision Transformer(ViT)架構上,使其具備高度通用性與廣泛的真實視覺應用適用性。
段落功能
建立研究場域——肯定 SAM 作為視覺基礎模型的核心地位。
邏輯角色
論證鏈的起點:先以具體資料(10 億遮罩、1,100 萬影像)確立 SAM 的權威性,為後續「值得為之打造輕量版本」的立論奠定必要性基礎。
論證技巧 / 潛在漏洞
以壓倒性的資料規模(1B masks, 11M images)建立 SAM 的不可取代性,暗示其知識值得被「蒸餾」出來。但未提及 SAM 在某些細分任務上的侷限(如醫學影像),可能高估了 SAM 的普遍適用性。
Despite the foregoing advantages, the model of SAM turns out to be a major efficiency bottleneck for practical deployment since the architecture of SAM, especially, the image encoder (e.g., ViT-H) is very expensive. The ViT-H encoder contains 632M parameters while the decoder uses only 3.87M parameters, creating high computation and memory costs that impede real-time applications. This significant imbalance between encoder and decoder complexity motivates the search for lightweight alternatives that preserve SAM's core capabilities.
儘管具備上述優勢,SAM 的模型本身卻成為實際部署的重大效率瓶頸,因為 SAM 的架構——尤其是影像編碼器(如 ViT-H)——計算成本極高。ViT-H 編碼器包含 6.32 億參數,而解碼器僅有 387 萬參數,造成阻礙即時應用的高運算與記憶體成本。編碼器與解碼器之間的顯著複雜度失衡,驅動了對能保留 SAM 核心能力之輕量替代方案的探索。
段落功能
揭示核心矛盾——SAM 的強大與其部署困難之間的張力。
邏輯角色
經典的「轉折」段落:從「SAM 很強」到「但太貴了」。632M vs 3.87M 的參數對比極具視覺衝擊力,明確指出瓶頸在編碼器而非解碼器,為「替換編碼器」的方案鋪路。
論證技巧 / 潛在漏洞
以 163:1 的參數比例(632M vs 3.87M)製造戲劇性對比,極具說服力。但僅以參數量衡量效率略顯片面——實際推理速度還取決於算子效率、記憶體存取模式等因素,參數量不完全等同於計算成本。
In this paper, we propose using a well-pretrained lightweight ViT image encoder (e.g., ViT-Tiny/-Small) to reduce the complexity of SAM while maintaining decent performance. Our approach, SAMI (SAM-leveraged masked image pretraining), leverages masked image pretraining by training lightweight encoders to reconstruct features from SAM image encoder rather than reconstructing image patches. This knowledge-transfer mechanism produces generalized backbones applicable to diverse downstream tasks. The methodology involves two stages: pretraining SAMI on ImageNet-1K, then finetuning on SA-1B for segment anything tasks. The authors emphasize three key contributions: (1) proposing the SAMI framework for improved masked pretraining; (2) demonstrating that SAMI-pretrained backbones generalize across classification, detection, and segmentation; (3) delivering EfficientSAMs as complementary to SAM for practical deployment with state-of-the-art efficiency-quality tradeoffs.
本文提出以經良好預訓練的輕量 ViT 影像編碼器(如 ViT-Tiny/-Small)來降低 SAM 的複雜度,同時維持良好效能。核心方法 SAMI(SAM 引導的遮罩影像預訓練)透過訓練輕量編碼器重建 SAM 影像編碼器的特徵(而非重建影像區塊),利用遮罩影像預訓練實現知識轉移。此知識遷移機制產生可泛化至多種下游任務的骨幹網路。方法包含兩階段:先在 ImageNet-1K 上進行 SAMI 預訓練,再於 SA-1B 上微調以執行分割任務。作者強調三項核心貢獻:(1) 提出 SAMI 框架以改進遮罩預訓練;(2) 證明 SAMI 預訓練的骨幹網路可泛化至分類、偵測與分割任務;(3) 提供 EfficientSAM 作為 SAM 在實際部署上的互補方案,達成最先進的效率-品質權衡。
段落功能
提出解決方案並列舉貢獻——完整概述 SAMI 框架與三大貢獻。
邏輯角色
承接效率瓶頸的問題陳述,此段扮演「轉折+承諾」角色:從「問題」過渡到「方案」。「重建 SAM 特徵而非像素」是與標準 MAE 的關鍵區別,直接回應「如何保留 SAM 知識」的核心挑戰。
論證技巧 / 潛在漏洞
「complementary to SAM」的定位策略精妙——不宣稱取代 SAM,而是作為互補方案,降低了讀者的期望門檻。三項貢獻的列舉清晰有序,但第(2)項的「泛化」主張需依賴大量下游實驗支撐,若實驗範圍不足則可能被質疑。
2. Related Work — 相關工作
Segment Anything Model (SAM) represents a milestone vision foundation model enabling object segmentation via interaction prompts. Its remarkable zero-shot transfer extends beyond segmentation to applications including in-painting, image restoration, image editing, image shadow removal, object tracking, and 3D object reconstruction. Recent works address practical deployment by proposing efficiency improvements: FastSAM develops a CNN-based architecture, YOLOv8-seg, while MobileSAM presents decoupled distillation for obtaining a lightweight image encoder. The present work aims at addressing this efficiency issue for practical deployment of SAM.
Segment Anything Model(SAM)是視覺基礎模型的里程碑,透過互動式提示實現物件分割。其卓越的零樣本遷移能力延伸至分割以外的應用,包括影像修補、影像復原、影像編輯、陰影移除、物件追蹤與三維物件重建。近期研究透過提升效率來解決實際部署問題:FastSAM 開發基於 CNN 的 YOLOv8-seg 架構,MobileSAM 則提出解耦蒸餾以獲取輕量影像編碼器。本研究旨在解決 SAM 實際部署的效率問題。
段落功能
文獻回顧——勾勒 SAM 生態系及現有效率改進方案。
邏輯角色
建立競爭版圖:FastSAM(CNN 路線)與 MobileSAM(蒸餾路線)代表兩種既有策略,為 SAMI 的「預訓練路線」創造差異化空間。
論證技巧 / 潛在漏洞
列舉 SAM 的廣泛應用(修補、復原、編輯等)強化了「SAM 值得被高效化」的論點。但將 FastSAM 與 MobileSAM 簡要帶過,未深入比較其優劣,可能使讀者難以判斷 SAMI 相對於這些方法的本質優勢。
Knowledge distillation transfers dark knowledge from large teacher models to smaller students through soft labels from a teacher model. Advanced approaches include decoupled distillation separating target class and non-target class knowledge, and feature-based distillation from intermediate layers. In the domain of masked image pretraining, self-supervised approaches employ denoising autoencoders and context encoders for Vision Transformers. BEiT adopted masked image modeling (MIM) to predict visual tokens, while MAE and SimMIM achieve effective visual representation learning through direct pixel reconstruction. MAE-based extensions use large teacher models to guide pretraining, establishing the foundation for the authors' SAMI approach.
知識蒸餾透過教師模型的軟標籤將深層知識從大型模型轉移至小型學生模型。進階方法包括將目標類別與非目標類別知識分離的解耦蒸餾,以及從中間層進行特徵蒸餾。在遮罩影像預訓練領域,自監督方法採用去噪自編碼器與上下文編碼器應用於 Vision Transformer。BEiT 率先採用遮罩影像建模(MIM)來預測視覺標記,而 MAE 與 SimMIM 則透過直接像素重建實現有效的視覺表徵學習。基於 MAE 的擴展方法使用大型教師模型引導預訓練,為本文的 SAMI 方法奠定了基礎。
段落功能
技術譜系建構——將 SAMI 定位於知識蒸餾與遮罩預訓練的交匯點。
邏輯角色
建立學術譜系:知識蒸餾 + MAE 預訓練 = SAMI。透過梳理兩條技術線的演進,暗示 SAMI 是兩者的自然融合,而非突兀的創新。
論證技巧 / 潛在漏洞
以線性演進敘事(BEiT -> MAE -> 教師引導 MAE -> SAMI)建構「自然下一步」的印象。但 SAMI 實質上更接近「以 SAM 特徵為重建目標的 MAE」,其與傳統知識蒸餾的差異(不需要教師模型在線推理)值得更清楚地闡述。
Vision Transformers demonstrate advantages of generalization over their CNN counterparts. Smaller variants like ViT-Small and ViT-Tiny complement larger models for efficiency-sensitive scenarios. MobileViT explores combining ViT with convolutions, achieving better generalization than lightweight CNNs with reduced memory and computation. Related architectures such as LeViT, EfficientFormer, Next-ViT, and Tiny-ViT represent orthogonal progress independent of the EfficientSAM work, as EfficientSAM's contribution focuses on pretraining strategy rather than architectural design.
Vision Transformer 相較於 CNN 展現出更佳的泛化能力。較小的變體如 ViT-Small 與 ViT-Tiny 為效率敏感的場景提供了互補選擇。MobileViT 探索結合 ViT 與摺積,以更低的記憶體與計算量達到優於輕量 CNN 的泛化效能。相關架構如 LeViT、EfficientFormer、Next-ViT 與 Tiny-ViT 代表的是與 EfficientSAM 正交的進展,因為 EfficientSAM 的貢獻聚焦於預訓練策略而非架構設計。
段落功能
界定範疇——釐清 EfficientSAM 與架構創新的正交關係。
邏輯角色
預防性反駁:預料到「為何不設計新架構」的質疑,主動聲明 SAMI 的貢獻在預訓練策略層面,與架構改進互不衝突且可結合。
論證技巧 / 潛在漏洞
「正交進展」的說法巧妙地化解了與大量輕量化 ViT 研究的直接比較壓力。但這也暗示 SAMI 若搭配更先進的輕量架構(而非普通 ViT-Small),效果可能更好——作者未探索此組合,留下了未解的研究空間。
3. Approach — 方法
3.1 Preliminary: Masked Autoencoders
Masked Autoencoders (MAE) model has two components, an encoder and a decoder, both using Transformer layers. MAE processes input images into non-overlapping patches, grouping them into unmasked tokens (processed by the encoder) and masked tokens (serving as reconstruction targets). The framework employs a high mask ratio (e.g., 75%) to prevent information leakage through neighbor extrapolation. Only the unmasked tokens are fed into the encoder, making pretraining efficient; the decoder then takes both encoded unmasked tokens and learnable mask tokens to reconstruct the original image patches at masked positions.
遮罩自編碼器(MAE)模型包含編碼器與解碼器兩個組件,皆使用 Transformer 層。MAE 將輸入影像處理為不重疊的區塊,分為未遮罩標記(由編碼器處理)與遮罩標記(作為重建目標)。此框架採用高遮罩比率(如 75%)以防止透過鄰近區塊外插造成資訊洩漏。僅有未遮罩標記送入編碼器,使預訓練更加高效;解碼器隨後接收編碼後的未遮罩標記與可學習的遮罩標記,於遮罩位置重建原始影像區塊。
段落功能
技術前置——介紹 SAMI 所依據的 MAE 基礎架構。
邏輯角色
為後續的 SAMI 設計提供必要的技術背景。讀者需先理解 MAE 的「遮罩-編碼-重建」流程,才能領會 SAMI 將「重建目標從像素替換為 SAM 特徵」的關鍵修改。
論證技巧 / 潛在漏洞
將 MAE 的技術細節(75% 遮罩率、僅處理未遮罩標記的效率設計)交代清楚,為 SAMI 繼承這些設計選擇提供合理性。但未討論 MAE 原始架構在特徵重建(非像素重建)場景下是否需要調整,此問題留至 3.2 節解答。
3.2 SAMI: SAM-Leveraged Masked Image Pretraining
SAMI adapts the MAE framework to leverage SAM's image encoder as the reconstruction target. Rather than reconstructing pixels, the method trains lightweight encoders to align with latent features from SAM image encoder, thereby transferring knowledge embedded in SAM. The decoder architecture uses a cross-attention mechanism where queries come from masked tokens while keys and values are derived from both unmasked features from the encoder and masked features. Output features from masked and unmasked tokens are merged and reordered to their original image positions.
SAMI 將 MAE 框架改造以利用 SAM 影像編碼器作為重建目標。此方法不重建像素,而是訓練輕量編碼器對齊 SAM 影像編碼器的潛在特徵,藉此遷移嵌入於 SAM 中的知識。解碼器架構採用交叉注意力機制,其中查詢來自遮罩標記,而鍵與值則衍生自編碼器的未遮罩特徵與遮罩特徵。遮罩與未遮罩標記的輸出特徵經合併後,依原始影像位置重新排序。
段落功能
核心創新——描述 SAMI 將 MAE 重建目標從像素替換為 SAM 特徵的關鍵修改。
邏輯角色
全文論證的支柱段落。「重建 SAM 特徵而非像素」是整篇論文最核心的一句話——它將自監督預訓練與基礎模型知識遷移巧妙結合,形成 SAMI 的獨特價值主張。
論證技巧 / 潛在漏洞
交叉注意力解碼器的設計讓遮罩標記能「看到」未遮罩的上下文,理論上有助於特徵重建。但此設計與標準 MAE 的解碼器不同,增加了額外的歸納偏置——需以消融實驗驗證此修改的必要性。
Features from the encoder and decoder pass through a linear projection head for aligning the features from SAM image encoder, addressing the feature dimension mismatch between the lightweight encoder and SAM's ViT-H. The reconstruction loss minimizes the mean squared error between SAM encoder features and SAMI's projected output: L = (1/N) * sum ||f_sam(x) - f_h(x)||^2, where N represents the token count, f_sam is the SAM encoder output, and f_h combines encoder-decoder outputs through linear projection. After SAMI pretraining, the decoder is discarded and the lightweight encoder (ViT-Tiny/-Small/-Base) serves as SAM's image encoder replacement.
編碼器與解碼器的特徵通過線性投影頭以對齊 SAM 影像編碼器的特徵,解決輕量編碼器與 SAM ViT-H 之間的特徵維度不匹配問題。重建損失最小化 SAM 編碼器特徵與 SAMI 投影輸出之間的均方誤差:L = (1/N) * sum ||f_sam(x) - f_h(x)||^2,其中 N 為標記數量,f_sam 為 SAM 編碼器輸出,f_h 結合經線性投影的編碼器-解碼器輸出。SAMI 預訓練完成後,解碼器被丟棄,輕量編碼器(ViT-Tiny/-Small/-Base)取代 SAM 的影像編碼器。
段落功能
技術細節——定義損失函數與特徵對齊機制。
邏輯角色
提供方法的數學形式化。MSE 損失的選擇暗示作者假設 SAM 特徵空間是歐氏空間中有意義的——此假設的合理性由消融實驗中與 cosine similarity 的比較來驗證。
論證技巧 / 潛在漏洞
「預訓練後丟棄解碼器」的設計令人注意——解碼器在預訓練中學到的知識無法被保留到下游任務。這意味著所有知識必須被壓縮進編碼器中,對編碼器的容量提出了隱含要求。線性投影頭的簡單性可能限制特徵對齊的表達力。
3.3 Building EfficientSAM
After SAMI pretraining on ImageNet-1K, the pretrained lightweight ViT encoder is coupled with SAM's original mask decoder to form EfficientSAM. The complete model is then finetuned end-to-end on the SA-1B dataset for segment anything tasks. Two primary variants are proposed: EfficientSAM-Ti using ViT-Tiny (5M parameters) and EfficientSAM-S using ViT-Small (22M parameters). Compared to SAM's ViT-H with 632M parameters, EfficientSAM-S achieves approximately 20x reduction in parameters and inference time while targeting minimal performance degradation.
在 ImageNet-1K 上完成 SAMI 預訓練後,將預訓練的輕量 ViT 編碼器與 SAM 原始的遮罩解碼器結合,形成 EfficientSAM。完整模型隨後在 SA-1B 資料集上進行端對端微調以執行分割任務。提出兩個主要變體:使用 ViT-Tiny(500 萬參數)的 EfficientSAM-Ti,以及使用 ViT-Small(2,200 萬參數)的 EfficientSAM-S。相較於 SAM 的 ViT-H(6.32 億參數),EfficientSAM-S 達到約 20 倍的參數與推理時間縮減,同時追求最小的效能衰退。
段落功能
方案具體化——描述 EfficientSAM 的建構流程與模型規格。
邏輯角色
將抽象的 SAMI 預訓練框架落實為可部署的模型。5M / 22M vs 632M 的參數對比呼應緒論的效率瓶頸論述,形成「問題-解方-實現」的完整迴路。
論證技巧 / 潛在漏洞
「20x 縮減」的數字極具吸引力,但需注意此數字僅針對編碼器。加上共享的解碼器後,整體模型的加速比例可能較低。此外,端對端微調在 SA-1B 上需要大量計算資源(64 A100 GPU),對一般研究者而言仍是高門檻。
4. Experiments — 實驗
On ImageNet-1K image classification, SAMI demonstrates consistent improvements across all model scales. SAMI-B achieves 84.8% top-1 accuracy, outperforming MAE-B (83.6%), iBOT-B (84.4%), CAE-B (83.9%), and BEiT-B (83.7%) by margins of 1.2%, 0.4%, 0.9%, and 1.1% respectively. For lightweight models, the gains are even more pronounced: SAMI-S reaches 82.7% versus MAE-S (81.5%), DeiT-S (81.2%), and SSTA-S (81.4%). SAMI-Ti achieves 76.8% over MAE-Ti (75.2%), representing a 1.6% improvement. Notably, SAMI requires only 400 epochs of pretraining compared to 1600 epochs for standard MAE, demonstrating superior training efficiency.
在 ImageNet-1K 影像分類任務上,SAMI 在所有模型規模上均展現一致的改進。SAMI-B 達到 84.8% 的 top-1 準確率,分別超越 MAE-B(83.6%)、iBOT-B(84.4%)、CAE-B(83.9%)與 BEiT-B(83.7%)達 1.2%、0.4%、0.9% 與 1.1%。對輕量模型而言,增益更為顯著:SAMI-S 達到 82.7%(MAE-S 為 81.5%、DeiT-S 為 81.2%、SSTA-S 為 81.4%)。SAMI-Ti 以 76.8% 超越 MAE-Ti(75.2%),提升幅度達 1.6%。值得注意的是,SAMI 僅需 400 個訓練週期,相比標準 MAE 的 1,600 個週期,展現出優越的訓練效率。
段落功能
提供分類任務實證——以多基線、多規模的比較建立 SAMI 的通用性。
邏輯角色
驗證貢獻(2)「SAMI 預訓練的骨幹網路可泛化至分類任務」。400 vs 1600 epochs 的對比額外支持了 SAMI 的訓練效率主張。
論證技巧 / 潛在漏洞
輕量模型上更大的增益(Ti: +1.6% vs B: +1.2%)暗示 SAM 特徵引導對小模型的幫助更大,這與直覺一致。但 400 epochs 的 SAMI 需要額外的 SAM 特徵計算成本(需先用 ViT-H 提取特徵),此隱藏成本未被計入比較。
For object detection and instance segmentation on COCO using the ViTDet framework, SAMI shows substantial improvements. SAMI-B achieves 52.5 AP_bbox and 46.5 AP_mask, gaining 0.9 AP_bbox and 0.6 AP_mask over MAE-B. More significantly, SAMI-Ti reaches 44.7 AP_bbox and 40.0 AP_mask versus MAE-Ti's 37.9/34.9, a remarkable 6.8 AP_bbox and 5.1 AP_mask improvement. On ADE20K semantic segmentation using Mask2former, SAMI-B achieves 51.8 mIoU (3.7 improvement over MAE-B's 49.3), SAMI-S reaches 48.8 mIoU (4.7 gain), and SAMI-Ti achieves 42.7 mIoU (3.7 gain). These results confirm that SAMI-pretrained backbones transfer effectively across dense prediction tasks.
在使用 ViTDet 框架的 COCO 物件偵測與實例分割任務上,SAMI 展現顯著改進。SAMI-B 達到 52.5 AP_bbox 與 46.5 AP_mask,較 MAE-B 提升 0.9 AP_bbox 與 0.6 AP_mask。更引人注目的是,SAMI-Ti 達到 44.7 AP_bbox 與 40.0 AP_mask,相比 MAE-Ti 的 37.9/34.9 提升了驚人的 6.8 AP_bbox 與 5.1 AP_mask。在使用 Mask2former 的 ADE20K 語意分割上,SAMI-B 達到 51.8 mIoU(較 MAE-B 的 49.3 提升 3.7),SAMI-S 達到 48.8 mIoU(提升 4.7),SAMI-Ti 達到 42.7 mIoU(提升 3.7)。這些結果確認 SAMI 預訓練的骨幹網路能有效遷移至密集預測任務。
段落功能
擴展實證——將驗證範圍從分類延伸至偵測與分割。
邏輯角色
進一步支撐貢獻(2)的泛化主張。SAMI-Ti 在偵測任務上的巨大增益(+6.8 AP)是全文最強的實證之一,顯示 SAM 特徵對密集預測任務的小模型尤其有價值。
論證技巧 / 潛在漏洞
SAMI-Ti 的 +6.8 AP 增益極為亮眼,但此數字可能部分反映 MAE 在極小模型上的預訓練效果本就較差(MAE-Ti 的 37.9 AP 偏低),而非 SAMI 本身的卓越。以相對增益而非絕對效能比較,可能放大了 SAMI 的貢獻。
On the segment anything task, EfficientSAM-S achieves 76.9 mIoU (1-box) and 50.0 mIoU (1-click) on COCO, and 75.4 mIoU (1-box) and 56.2 mIoU (1-click) on LVIS. EfficientSAM-Ti reaches 75.7 mIoU (1-box) and 45.5 mIoU (1-click) on COCO. For zero-shot instance segmentation, EfficientSAM-S achieves 44.4 AP on COCO and 42.3 AP on LVIS, gaining 6.5 and 7.8 AP respectively over FastSAM. Critically, EfficientSAM-S uses only 25M parameters versus FastSAM's 68M, while the gap with the full SAM (46.5 AP) is only 2.1 AP on COCO. This demonstrates that EfficientSAM provides an excellent efficiency-performance tradeoff for practical deployment.
在分割任務上,EfficientSAM-S 在 COCO 上達到 76.9 mIoU(1-box)與 50.0 mIoU(1-click),在 LVIS 上達到 75.4 mIoU(1-box)與 56.2 mIoU(1-click)。EfficientSAM-Ti 在 COCO 上達到 75.7 mIoU(1-box)與 45.5 mIoU(1-click)。在零樣本實例分割上,EfficientSAM-S 在 COCO 上達到 44.4 AP、在 LVIS 上達到 42.3 AP,分別超越 FastSAM 6.5 與 7.8 AP。關鍵在於,EfficientSAM-S 僅使用 2,500 萬參數(FastSAM 為 6,800 萬),而與完整 SAM(46.5 AP)的差距在 COCO 上僅 2.1 AP。這證明 EfficientSAM 為實際部署提供了優異的效率-效能權衡。
段落功能
核心實驗結果——在論文的目標任務(segment anything)上驗證方法。
邏輯角色
這是全文實證的高潮段落,直接驗證貢獻(3)。與 FastSAM 的比較(+6.5 AP, 更少參數)證明效率優勢,與 SAM 的比較(-2.1 AP)量化效能代價。兩組資料共同支持「優異權衡」的結論。
論證技巧 / 潛在漏洞
與 FastSAM 和 SAM 的雙向比較非常有效——同時展示「比快速方案更好」與「接近完整方案」。但 2.1 AP 的差距在某些應用中可能顯著,且 1-click 的 mIoU 差距(50.0 vs SAM 的更高值)暗示在互動式分割上,EfficientSAM 可能需要更多使用者提示才能達到相似品質。
4.4 Ablation Studies — 消融研究
Ablation studies validate key design choices. For reconstruction loss, MSE loss outperforms cosine similarity: SAMI-S achieves 82.7% (MSE) versus 82.3% (cosine) on ImageNet-1K. The cross-attention decoder with masked tokens only improves SAMI-Ti performance by approximately 3% over standard MAE's approach of processing all tokens. For mask ratio, optimal performance occurs at 75%: SAMI-B achieves 84.8% at 75%, versus 84.6% (50%) and 84.7% (85%). Regarding alternative reconstruction targets, using CLIP encoder features improves MAE-Ti by 0.8%, but SAM features produce stronger results due to SAM's richer spatial understanding. Finally, even at 0.1 finetuning epochs, EfficientSAMs achieve decent performance, reaching over 2.5 mIoU improvement at 1 epoch.
消融研究驗證了關鍵設計選擇。在重建損失方面,MSE 損失優於餘弦相似度:SAMI-S 在 ImageNet-1K 上達到 82.7%(MSE)對比 82.3%(cosine)。交叉注意力解碼器僅使用遮罩標記的設計,使 SAMI-Ti 的效能提升約 3%,優於標準 MAE 處理全部標記的方式。在遮罩比率方面,最佳效能出現在 75%:SAMI-B 在 75% 時達 84.8%,50% 時為 84.6%,85% 時為 84.7%。關於替代重建目標,使用 CLIP 編碼器特徵使 MAE-Ti 提升 0.8%,但 SAM 特徵因其更豐富的空間理解能力而產生更強的結果。最後,即使僅微調 0.1 個訓練週期,EfficientSAM 已能達到可接受的效能,在 1 個訓練週期時即達到超過 2.5 mIoU 的改進。
段落功能
設計驗證——以系統性消融確認每個設計選擇的合理性。
邏輯角色
消融研究扮演「防禦性論證」角色:預料到「為何選 MSE 而非 cosine」「為何 75% 遮罩率」等質疑,逐一以實驗資料回應。CLIP vs SAM 的比較更進一步證明 SAM 特徵的獨特價值。
論證技巧 / 潛在漏洞
消融設計全面,但各項差異(如 MSE vs cosine 僅差 0.4%、遮罩率之間僅差 0.1-0.2%)數值偏小,可能在統計顯著性上存疑。作者未報告信賴區間或多次實驗的標準差,使讀者難以判斷這些差異是否穩健。
5. Conclusion — 結論
We proposed a masked image pretraining approach, SAMI, to explore the potential of ViTs under the guidance of SAM foundation model. By reconstructing latent features from SAM image encoder, the method transfers knowledge from vision foundation model to lightweight ViTs. Comprehensive experiments validate SAMI's advantages across image classification, object detection and instance segmentation, semantic segmentation, and the segment anything task. The resulting EfficientSAMs demonstrate that practical deployment of segment anything capabilities is achievable with significantly reduced computational cost. The work suggests potential applications beyond efficient segment anything, indicating that SAMI's pretraining paradigm may benefit other vision foundation model compression scenarios.
本文提出遮罩影像預訓練方法 SAMI,在 SAM 基礎模型的引導下探索 ViT 的潛力。透過重建 SAM 影像編碼器的潛在特徵,此方法將視覺基礎模型的知識遷移至輕量 ViT。全面的實驗驗證了 SAMI 在影像分類、物件偵測與實例分割、語意分割以及分割任務上的優勢。所產生的 EfficientSAM 證明,以顯著降低的運算成本實現分割能力的實際部署是可行的。本研究暗示超越高效分割之外的潛在應用,指出 SAMI 的預訓練範式可能有益於其他視覺基礎模型的壓縮場景。
段落功能
總結全文——重申核心貢獻並展望更廣泛的影響。
邏輯角色
結論段與摘要形成對稱結構,從方法回到啟示。「超越高效分割」的展望將 SAMI 定位為通用的基礎模型壓縮範式,而非僅限於 SAM 的特定工具,提升了論文的影響力論述。
論證技巧 / 潛在漏洞
「potential applications beyond efficient segment anything」的展望令人期待但缺乏實質驗證——作者僅以 CLIP 特徵的消融實驗間接支持此主張。結論未充分討論局限性,如對 SA-1B 微調的高計算需求、與未來 SAM 版本的相容性,以及在非自然影像領域(如醫學影像)的適用性。
論證結構總覽
問題
SAM 效能卓越但
ViT-H 編碼器過於龐大
SAM 效能卓越但
ViT-H 編碼器過於龐大
→
論點
以 SAM 特徵引導
輕量 ViT 預訓練
以 SAM 特徵引導
輕量 ViT 預訓練
→
證據
多任務驗證:分類、偵測
分割均優於 MAE 基線
多任務驗證:分類、偵測
分割均優於 MAE 基線
→
反駁
與 SAM 差距僅 2.1 AP
效率提升 20 倍
與 SAM 差距僅 2.1 AP
效率提升 20 倍
→
結論
SAMI 為基礎模型
壓縮的有效範式
SAMI 為基礎模型
壓縮的有效範式
作者核心主張(一句話)
以 SAM 影像編碼器的潛在特徵作為遮罩自編碼器的重建目標,能有效地將視覺基礎模型的知識遷移至輕量 ViT,在參數量縮減 20 倍的條件下,仍能在分割任務上保持接近原始 SAM 的效能。
論證最強處
多任務泛化的全面驗證:SAMI 不僅在目標任務(segment anything)上表現優異,更在影像分類(+1.2% top-1)、物件偵測(+6.8 AP_bbox for Ti)與語意分割(+4.7 mIoU for S)上一致超越 MAE 基線。這種跨任務的一致性增益,有力地證明 SAM 特徵引導的預訓練確實產生了更通用的視覺表徵,而非僅對分割任務過擬合。
論證最弱處
隱藏的計算成本與可及性:SAMI 預訓練需要先以 SAM ViT-H 對整個 ImageNet-1K 進行特徵提取,此前置成本未被納入「400 vs 1600 epochs」的效率比較中。此外,SA-1B 上的端對端微調需要 64 張 A100 GPU,使 EfficientSAM 的「高效」主張更多是針對推理端而非訓練端。對資源有限的研究者而言,複現此方法的門檻依然很高。