SiamMask: Fast Online Object Tracking and Segmentation

Abstract 摘要

In this paper we illustrate how to perform both visual object tracking and semi-supervised video object segmentation, in real-time, with a single simple approach. SiamMask enhances fully-convolutional Siamese networks by adding a binary segmentation task. Operating from a single bounding box initialization, it generates class-agnostic segmentation masks and rotated bounding boxes at 55 frames per second. It achieves state-of-the-art performance on VOT-2018 while demonstrating competitive results on DAVIS-2016 and DAVIS-2017 with superior speed.

本文展示了如何以單一簡潔的方法，同時實現即時的視覺目標追蹤與半監督式影片物件分割。SiamMask 透過在全摺積孿生網路中增加二元分割任務來強化網路能力。僅需以單一邊界框作為初始化輸入，即可產生類別無關的分割遮罩與旋轉邊界框，運行速度達每秒 55 幀。該方法在 VOT-2018 上達到最先進效能，同時在 DAVIS-2016 與 DAVIS-2017 上展現出具競爭力的結果，且速度遠超同類方法。

段落功能提出核心主張：以單一方法統一兩項視覺任務（追蹤與分割），並強調即時性。

邏輯角色全文論證起點——建立「統一方法」的核心命題，後續所有章節圍繞此命題展開。

論證技巧開場即以「即時」、「單一方法」、「55 fps」等量化指標與簡潔性訴求吸引讀者，建立技術優越感。同時羅列多個基準測試結果增強說服力。

1. Introduction 緒論

Given the location of an arbitrary target of interest in the first frame of a video, the aim of visual object tracking is to estimate its position in all the subsequent frames. Online operation proves essential for many applications. Semi-supervised VOS requires estimating target position using binary segmentation masks rather than simple rectangles.

給定影片首幀中任意目標的位置，視覺目標追蹤的目標是在所有後續幀中估計其位置。在線運行能力對許多應用而言不可或缺。半監督式影片物件分割則要求以二元分割遮罩——而非簡單矩形——來估計目標位置。

段落功能定義兩項核心任務：視覺目標追蹤（VOT）與半監督影片物件分割（VOS），為後續統一方法鋪墊背景。

邏輯角色問題界定階段——明確研究對象與任務邊界，使讀者理解為何需要統一框架。

論證技巧採用標準的「任務定義→需求分析」結構，先建立共識再引出問題。強調「在線」這一約束條件，暗示現有方法的不足。

Such a detailed representation is more desirable for applications that require pixel-level information, like video editing and rotoscoping. SiamMask bridges these tasks through multi-task learning. Three simultaneous training tasks: similarity measurement via cross-correlation, bounding box regression through Region Proposal Networks, and class-agnostic binary segmentation. Operating without test-time updates at 55 fps.

這種細緻的表達方式對需要像素級資訊的應用更為理想，例如影片編輯與轉描。SiamMask 透過多任務學習將這些任務串聯起來。三項同步訓練任務包括：透過互相關進行相似度度量、透過區域提議網路進行邊界框迴歸、以及類別無關的二元分割。在不需要測試時更新的條件下，達到每秒 55 幀的運行速度。

段落功能闡述應用動機並介紹 SiamMask 的多任務學習框架，列舉三項核心訓練任務。

邏輯角色從問題過渡到解決方案——將應用需求（像素級資訊）與方法特性（多任務學習）直接對應。

論證技巧以實際應用場景（影片編輯、轉描）建立研究的實用價值。「不需要測試時更新」巧妙回應了現有方法需要在線微調的缺陷，形成隱含的對比論證。

The Correlation Filter rose to prominence as particularly fast and effective strategy for tracking-by-detection. A simple rectangle often fails to properly represent an object. VOS algorithms traditionally prioritized accuracy over speed.

相關濾波器作為一種特別快速且有效的逐幀檢測追蹤策略而崛起。然而，簡單的矩形框往往無法恰當地表徵目標物體。影片物件分割演算法傳統上優先考慮準確度而非速度。

段落功能回顧現有追蹤與分割方法的發展脈絡，指出各自的局限性。

邏輯角色文獻綜述——建立研究空白：追蹤方法快但表徵粗糙，分割方法精但速度慢。為 SiamMask 的統一方案提供立足點。

論證技巧透過「矩形框不足以表徵物體」這一直觀論述，自然引出對更精細表達的需求。將兩類方法的缺陷並列呈現，暗示需要兼顧兩者優勢的新方案。

Some approaches process frames independently using FCNs with test-time fine-tuning. We are more than six times faster and only rely on a bounding box initialisation.

部分方法使用全摺積網路搭配測試時微調來獨立處理各幀。而我們的方法速度快出六倍以上，且僅需依賴邊界框初始化。

段落功能以具體倍數對比，確立 SiamMask 相對於現有方法的速度優勢。

邏輯角色承接文獻回顧中的速度問題，以量化資料強化自身方法的競爭力定位。

論證技巧「六倍以上」的量化宣稱極具衝擊力。同時強調「僅需邊界框初始化」降低使用門檻，形成速度與易用性的雙重優勢論述。潛在漏洞：未在此處明確指出是與哪些方法的具體對比。

3. Methodology 方法論

3.1 Fully-Convolutional Siamese Networks 全摺積孿生網路

Bertinetto et al. propose to use an offline-trained fully-convolutional Siamese network that compares an exemplar image z against a larger search image x to obtain a dense response map. SiamRPN adds region proposal networks enabling variable aspect-ratio bounding box estimation.

Bertinetto 等人提出使用離線訓練的全摺積孿生網路，將範例影像 z 與較大的搜尋影像 x 進行比較，以獲得密集的回應圖。SiamRPN 則加入區域提議網路，使其能夠估計可變寬高比的邊界框。

段落功能介紹 SiamMask 的技術基礎——全摺積孿生網路與 SiamRPN 的核心機制。

邏輯角色方法論鋪墊——建立讀者對基礎架構的理解，為後續 SiamMask 的擴展做準備。

論證技巧以遞進方式呈現技術演進：SiamFC（基礎比較）→ SiamRPN（加入區域提議）→ SiamMask（再加分割），構建清晰的技術演化敘事。

3.2 SiamMask

Unlike existing tracking methods that rely on low-fidelity object representations, we argue the importance of producing per-frame binary segmentation masks. A two-layer neural network predicts w×h binary masks for each response location. The mask prediction is a function of both the image to segment x and the target object in z.

與依賴低保真度物體表徵的現有追蹤方法不同，我們主張逐幀產生二元分割遮罩的重要性。一個兩層神經網路為每個回應位置預測 w×h 的二元遮罩。遮罩預測同時取決於待分割影像 x 與範例目標物體 z。

段落功能提出 SiamMask 的核心論點：追蹤任務應產生逐幀分割遮罩，並描述遮罩預測分支的設計。

邏輯角色核心方法闡述——這是整篇論文的關鍵創新點，將分割任務嵌入追蹤框架。

論證技巧以「低保真度」批評現有方法，形成鮮明對比，凸顯遮罩表徵的優越性。論述策略為「問題→主張→方案」的經典三段式。

The loss function for the mask prediction task is a binary logistic regression loss over all RoWs. The network comprises two 1×1 convolutional layers, one with 256 and the other with 63² channels. For both variants, we use a ResNet-50 until the final convolutional layer of the 4th stage as our backbone.

遮罩預測任務的損失函數為對所有像素行（RoWs）的二元邏輯迴歸損失。網路由兩個 1×1 摺積層組成，分別具有 256 個和 63² 個通道。對於兩種變體，均使用 ResNet-50 至第四階段最終摺積層作為骨幹網路。

段落功能提供遮罩分支的具體技術細節：損失函數選擇、網路層數與通道配置、骨幹網路規格。

邏輯角色技術細節補充——為方法的可重現性提供必要的架構參數。

論證技巧以精確的數值參數（256 通道、63² 通道、ResNet-50）增強方法的具體性與可信度。選用廣泛驗證過的 ResNet-50 作為骨幹，降低讀者對方法有效性的質疑。

4. Experiments 實驗

4.1 Visual Object Tracking 視覺目標追蹤

SiamMask achieves 85.4% mAP@0.5 for representation. Our three-branch variant significantly outperforms DaSiamRPN, achieving a EAO of 0.380 while running at 55 frames per second.

SiamMask 在表徵品質上達到 85.4% 的 mAP@0.5。我們的三分支變體顯著優於 DaSiamRPN，實現了 0.380 的期望平均重疊度（EAO），同時以每秒 55 幀的速度運行。

段落功能呈現在視覺目標追蹤基準（VOT-2018）上的量化實驗結果。

邏輯角色實證支撐——以資料驗證核心論點：統一方法能在追蹤任務上達到最先進水準。

論證技巧選擇與當時最強追蹤器 DaSiamRPN 直接對比，以「顯著優於」的措辭強化結果的說服力。將速度（55 fps）與精度（EAO 0.380）並列呈現，凸顯方法在兩個維度上的雙重優勢。

4.2 Semi-Supervised VOS 半監督影片物件分割

Achieves 71.7% Jaccard index on DAVIS-2016. SiamMask achieves a very low decay for both region similarity and contour accuracy. Approximately four times faster than fastest comparable methods.

在 DAVIS-2016 上達到 71.7% 的 Jaccard 指數。SiamMask 在區域相似度與輪廓準確度方面均展現出極低的衰減率。速度約為最快可比方法的四倍。

段落功能呈現在半監督影片物件分割任務（DAVIS 基準）上的實驗資料。

邏輯角色雙重驗證——證明統一方法不僅在追蹤上優秀，在分割任務上也具備競爭力，且速度優勢極為顯著。

論證技巧「四倍速度」的量化對比極具衝擊力。「極低衰減」表明方法在長序列上的穩健性。潛在漏洞：71.7% 的 Jaccard 指數雖具競爭力，但並非該基準上的最高分數，作者以速度優勢彌補了這一差距。

4.3 Further Analysis 進一步分析

Multi-task training experiments show modest improvements demonstrating benefits beyond mask usage. Measured at 55 fps on NVIDIA RTX 2080. Primary failure modes include motion blur and ambiguous non-object instances.

多任務訓練實驗顯示了適度的改進，證明了超越遮罩本身使用價值的額外效益。在 NVIDIA RTX 2080 上測得 55 fps 的運行速度。主要失敗模式包括運動模糊與模糊的非物體實例。

段落功能提供消融實驗結果與失敗案例分析，展現方法的優勢來源與局限性。

邏輯角色深度分析——超越純結果呈現，探討多任務學習的附帶收益，並誠實報告失敗情形。

論證技巧以「適度改進」的謙虛措辭增強可信度，避免過度宣稱。主動揭示失敗模式（運動模糊、模糊實例）體現學術誠實性，但也間接暗示這些是領域通用問題而非方法特有缺陷。指明硬體平台（RTX 2080）使速度宣稱具備可重現性。

5. Conclusion 結論

We show how it can be applied with success to both tasks of visual object tracking and semi-supervised video object segmentation, showing better accuracy than state-of-the-art trackers and the fastest speed among VOS methods.

我們展示了該方法如何成功應用於視覺目標追蹤與半監督影片物件分割兩項任務，在追蹤任務上展現出優於最先進追蹤器的準確度，同時在影片物件分割方法中達到最快速度。

段落功能總結全文核心貢獻，重申統一方法在兩項任務上的雙重優勢。

邏輯角色論證收束——以首尾呼應的方式回扣摘要中的核心主張，完成論證閉環。

論證技巧結論採用精練的一句話總結，將追蹤的「最佳準確度」與分割的「最快速度」交叉呈現，巧妙地讓兩項任務各取所長。這種交叉論述避免了在任何一項任務上承認絕對劣勢。

論證結構總覽

問題
追蹤與分割任務
各自為政

→

論點
多任務學習可
統一兩項任務

→

證據
VOT-2018 SOTA
DAVIS 競爭力結果

→

反駁
無需測試時更新
速度快六倍以上

→

結論
SiamMask 統一追蹤
與分割的即時方案

作者核心主張

透過在全摺積孿生網路中加入二元分割分支，可以用單一簡潔的統一方法同時實現即時的視覺目標追蹤與半監督影片物件分割，在速度與精度之間達到最佳平衡。

論證最強處

速度優勢的量化論證極為有力：55 fps 的運行速度、比最快 VOS 方法快四倍、比基於測試時微調的方法快六倍以上。同時在 VOT-2018 上達到 SOTA 的 EAO 0.380，實現了「快且準」的雙重驗證。

論證最弱處

在 DAVIS-2016 上的 71.7% Jaccard 指數雖具競爭力但並非最高，作者以速度優勢來彌補精度差距。消融實驗僅顯示「適度改進」，多任務學習的協同效應論述稍顯薄弱。此外，失敗模式分析較為簡略，未深入探討解決方案。