Abstract — 摘要
We propose FCOS, a fully convolutional one-stage object detector that solves object detection in a per-pixel prediction fashion, anchor-free and proposal-free, analogous to semantic segmentation. By eliminating predefined anchor boxes, FCOS avoids the computation related to anchor boxes such as the commonly needed IoU computation and matching during training, and also avoids all hyper-parameters related to anchor boxes. With the only post-processing being non-maximum suppression (NMS), FCOS with ResNeXt-64x4d-101 achieves 44.7% AP on the MS-COCO benchmark, surpassing previous one-stage detectors with the advantage of being much simpler.
我們提出 FCOS,一個以逐像素預測方式解決物件偵測的全摺積單階段偵測器,無需錨框與候選區域,類似於語意分割。透過消除預定義的錨框,FCOS 避免了與錨框相關的計算(如訓練時常需的 IoU 計算與匹配),也避免了所有與錨框相關的超參數。僅以非極大值抑制作為後處理,FCOS 搭配 ResNeXt-64x4d-101 在 MS-COCO 基準上達到 44.7% AP,超越先前的單階段偵測器,且更為簡潔。
段落功能
全文總覽——以「消除錨框」為核心訊息,定位 FCOS 為更簡潔且更強的偵測器。
邏輯角色
摘要的論證策略是「減法」:移除錨框後不僅沒有效能損失,反而取得更好結果,有力地質疑了錨框的必要性。
論證技巧 / 潛在漏洞
將物件偵測類比為語意分割是精妙的框架轉換,暗示偵測可借用分割的成熟技術棧。44.7% AP 的具體數字提供了即時的說服力。
1. Introduction — 緒論
Current mainstream detectors rely on anchor boxes, which introduce several drawbacks: detection performance is sensitive to anchor sizes and aspect ratios, affecting performance by ~4% AP on COCO; fixed-scale anchor boxes struggle with shape variations, particularly small objects; dense anchor box placement creates excessive negative samples, exacerbating class imbalance; and anchor-based methods involve complicated IoU computation. The authors ask: can object detection adopt the same per-pixel prediction framework that has succeeded in semantic segmentation, depth estimation, keypoint detection, and counting?
當前主流偵測器依賴錨框,這帶來多項缺陷:偵測效能對錨框大小與長寬比敏感,在 COCO 上影響約 4% AP;固定尺度錨框難以應對形狀變化,尤其是小物件;密集的錨框放置產生過多負樣本,加劇類別不平衡;且基於錨框的方法涉及複雜的 IoU 計算。作者提問:物件偵測是否能採用在語意分割、深度估計、關鍵點偵測與計數等任務中已成功的逐像素預測框架?
段落功能
問題陳述——系統性列舉錨框的四大缺陷。
邏輯角色
以四項具體缺陷建立「錨框有害」的論點,為無錨框設計的必要性提供充分動機。4% AP 的量化損失使論點具體而有力。
論證技巧 / 潛在漏洞
列舉式論證清晰有力。但錨框自 Faster R-CNN 以來已被廣泛驗證,作者可能低估了錨框在某些場景下的優勢(如提供先驗形狀資訊)。
Previous FCN-based detectors like DenseBox required image resizing to fixed scales and proved unsuitable for generic detection due to overlapping bounding box ambiguity. FCOS addresses this through multi-level FPN prediction, largely eliminating the ambiguity. A novel "center-ness" branch predicts the deviation of each location from its corresponding object center, suppressing low-quality detections. This simple yet effective component enables the FCN detector to outperform anchor-based alternatives under identical settings.
先前的 FCN 基偵測器如 DenseBox 需要將影像縮放至固定尺度,且因重疊邊界框的歧義而不適用於一般偵測。FCOS 透過多尺度 FPN 預測解決此問題,大幅消除歧義。一個新穎的「中心度」分支預測每個位置偏離對應物件中心的程度,抑制低品質的偵測結果。這個簡單卻有效的組件使 FCN 偵測器在相同設定下超越基於錨框的替代方案。
段落功能
技術方案預告——點出 FPN 與 center-ness 兩項關鍵創新。
邏輯角色
承接上段的問題陳述,此段回應兩個具體質疑:(1) 重疊框歧義由 FPN 解決;(2) 低品質偵測由 center-ness 抑制。邏輯完整。
論證技巧 / 潛在漏洞
將兩項技術分別對應兩個問題的敘事結構清晰。但 center-ness 本質上是一種啟發式加權,其最佳性缺乏理論保證。
2. Related Work — 相關工作
Anchor-based Detectors inherit from traditional sliding-window approaches. Faster R-CNN popularized anchor boxes, followed by SSD and YOLOv2. However, anchor-based methods require extensive hyperparameter tuning regarding anchor shapes and positive/negative sample labeling via IoU thresholds. Anchor-free Detectors: YOLOv1 predicted boxes at object centers but suffered low recall, prompting YOLOv2 to adopt anchors. CornerNet detects corner pairs but requires complicated grouping procedures. FCOS leverages all points within ground-truth boxes as positive samples, using center-ness to suppress low-quality detections.
基於錨框的偵測器繼承自傳統的滑動視窗方法。Faster R-CNN 普及了錨框,隨後 SSD 與 YOLOv2 沿用。然而,基於錨框的方法需要大量的超參數調整,涉及錨框形狀與透過 IoU 門檻值的正負樣本標註。無錨框偵測器方面:YOLOv1 在物件中心預測邊界框但召回率低,促使 YOLOv2 採用錨框。CornerNet 偵測角點對但需要複雜的分組程序。FCOS 利用真實框內的所有點作為正樣本,以 center-ness 抑制低品質偵測。
段落功能
文獻定位——將 FCOS 放置於錨框與無錨框方法的雙重脈絡中。
邏輯角色
透過指出 YOLOv1 因低召回率而「回歸」錨框的歷史,隱含 FCOS 終於解決了無錨框方法的痼疾。
論證技巧 / 潛在漏洞
以歷史演進的敘事暗示 FCOS 是無錨框方法的成熟體——「是時候了」的訊息。但同期的 CenterNet 等方法也在做類似嘗試,FCOS 的獨特性需更精確界定。
3. Approach — 方法
3.1 Fully Convolutional One-Stage Detector
Unlike anchor-based methods, FCOS directly regresses target bounding boxes at each spatial location, treating them as training samples similar to semantic segmentation. A location is positive if it falls within any ground-truth box, negative otherwise. For each positive location, the network predicts a 4D vector t* = (l*, t*, r*, b*) representing distances from the location to the four sides of the bounding box. The training loss combines focal loss for classification and IoU loss for bounding box regression. FCOS outputs 9x fewer parameters per location than anchor-based detectors using 9 anchors per location.
不同於基於錨框的方法,FCOS 在每個空間位置直接迴歸目標邊界框,將其視為訓練樣本,類似語意分割。若位置落在任何真實框內則為正樣本,否則為負樣本。對每個正位置,網路預測一個 4D 向量 t* = (l*, t*, r*, b*),表示位置到邊界框四邊的距離。訓練損失結合了分類的焦點損失與邊界框迴歸的 IoU 損失。FCOS 每個位置的輸出參數量僅為使用 9 個錨框之偵測器的九分之一。
段落功能
核心方法——定義逐像素迴歸的基本架構。
邏輯角色
此段建立了 FCOS 的數學基礎。4D 距離迴歸是一種優雅的參數化——直接預測到四邊的距離,避免了錨框的中心/寬高表示。
論證技巧 / 潛在漏洞
9 倍參數減少的量化比較直觀有力。但「真實框內所有點為正樣本」可能導致大量低品質正樣本(框邊緣的點),需 center-ness 來彌補。
3.2 Multi-level Prediction with FPN — FPN 多尺度預測
Multi-level prediction using five FPN levels {P3, P4, P5, P6, P7} with strides 8, 16, 32, 64, and 128 addresses two concerns: low best possible recall (BPR) from large feature map strides, and ambiguity from overlapping ground-truth boxes. Object sizes are assigned to appropriate levels by constraining the regression range — if max(l*, t*, r*, b*) exceeds a level-specific threshold, the location becomes a negative sample. With FPN, FCOS achieves 98.40% BPR, nearly matching RetinaNet's best (99.23%), and ambiguous samples are reduced from 23.16% to 7.14%.
使用五層 FPN {P3, P4, P5, P6, P7}(步幅分別為 8、16、32、64、128)的多尺度預測解決兩個問題:大步幅特徵圖導致的低最佳可能召回率,以及重疊真實框造成的歧義。物件尺寸透過約束迴歸範圍被分配至適當的層級——若 max(l*, t*, r*, b*) 超過特定層級的門檻值,該位置即成為負樣本。搭配 FPN,FCOS 達到 98.40% 的最佳可能召回率,幾近 RetinaNet 的最佳值(99.23%),且歧義樣本從 23.16% 降至 7.14%。
段落功能
核心設計——以 FPN 解決召回率與歧義兩大挑戰。
邏輯角色
此段直接回應先前無錨框方法被質疑的兩個弱點。98.40% BPR 的數據有力證明無錨框方法的召回率不再是瓶頸。
論證技巧 / 潛在漏洞
以具體數字(23.16% -> 7.14%)量化改善效果極具說服力。但剩餘 7.14% 的歧義如何處理,以及 FPN 層級分配的門檻值如何選擇,可能仍是影響效能的因素。
3.3 Center-ness Branch — 中心度分支
Despite multi-level prediction, low-quality predicted boxes emerge from locations far from object centers. A parallel single-layer branch predicts "center-ness", measuring the normalized distance from each location to its corresponding object center: centerness* = sqrt[(min(l*,r*)/max(l*,r*)) * (min(t*,b*)/max(t*,b*))]. Center-ness ranges from 0 to 1, trained with binary cross-entropy loss. During testing, predicted center-ness is multiplied with the classification score, down-weighting far-from-center predictions. This improves AP from 33.5% to 37.1%, enabling FCOS to surpass RetinaNet (35.9%).
儘管有多尺度預測,遠離物件中心的位置仍會產生低品質的預測框。一個平行的單層分支預測「中心度」,衡量每個位置到對應物件中心的正規化距離:centerness* = sqrt[(min(l*,r*)/max(l*,r*)) * (min(t*,b*)/max(t*,b*))]。中心度範圍從 0 到 1,以二元交叉熵損失訓練。在測試時,預測的中心度與分類分數相乘,降低遠離中心之預測的權重。這將 AP 從 33.5% 提升至 37.1%,使 FCOS 超越 RetinaNet(35.9%)。
段落功能
關鍵創新——提出 center-ness 作為品質評估機制。
邏輯角色
Center-ness 是使 FCOS 超越錨框方法的「最後一塊拼圖」:3.6% AP 的跳躍(33.5% -> 37.1%)證明此組件的必要性。
論證技巧 / 潛在漏洞
Center-ness 的數學形式優雅且直覺——越接近中心值越高。但此公式假設物件中心是最佳預測位置,對非凸或細長物件可能不成立。
4. Experiments — 實驗
On MS-COCO test-dev, FCOS achieves remarkable results across multiple backbones: ResNet-101-FPN: 41.5% AP versus RetinaNet 39.1% AP (+2.4%); ResNeXt-64x4d-101-FPN: 43.2% AP, surpassing CornerNet (40.5%); and with additional improvements, FCOS reaches 44.7% AP. As a Region Proposal Network (RPN) replacement, FCOS improves AR_100 by 8.1% and AR_1k by 3.4% over anchor-based RPNs. The center-ness branch alone accounts for +3.6% AP improvement, and a separate branch outperforms computing center-ness from predicted regression vectors.
在 MS-COCO test-dev 上,FCOS 在多種骨幹網路下達到卓越成果:ResNet-101-FPN:41.5% AP 對比 RetinaNet 39.1% AP(+2.4%);ResNeXt-64x4d-101-FPN:43.2% AP,超越 CornerNet(40.5%);加入額外改進後,FCOS 達到 44.7% AP。作為區域候選網路(RPN)的替代,FCOS 的 AR_100 提升 8.1%、AR_1k 提升 3.4%,優於基於錨框的 RPN。center-ness 分支單獨貢獻 +3.6% AP 的改善,且獨立分支優於從預測迴歸向量計算中心度。
段落功能
全面實驗驗證——在多骨幹、多應用場景下展示 FCOS 的優越性。
邏輯角色
實驗結果在三個維度支撐論點:(1) 對比錨框方法的一致優勢;(2) 對比其他無錨框方法的領先;(3) 作為 RPN 替代的泛用性。
論證技巧 / 潛在漏洞
多角度的數字比較非常具說服力。但 44.7% 包含了「額外改進」(如可變形摺積等),純粹的 FCOS 架構效能應單獨呈現以避免誤導。
5. Conclusion — 結論
FCOS presents a simpler, anchor-free, proposal-free alternative to mainstream anchor-based detectors, achieving state-of-the-art one-stage performance with significantly fewer design complexities. By eliminating anchor computation and hyperparameters, the method unifies detection with dense prediction tasks. The framework extends readily to instance-level tasks including instance segmentation and keypoint detection, serving as a strong baseline for instance-wise prediction problems. FCOS demonstrates that anchor boxes, long considered essential for competitive detection, are in fact unnecessary.
FCOS 提出了一個更簡潔的無錨框、無候選區域的替代方案,以顯著更少的設計複雜度達到最先進的單階段偵測效能。透過消除錨框計算與超參數,該方法將偵測與密集預測任務統一。此框架可輕易擴展至實例分割與關鍵點偵測等實例級任務,作為實例預測問題的強基線。FCOS 證明了長期被視為競爭性偵測所必需的錨框,實際上是不必要的。
段落功能
總結全文——以「錨框不必要」作為核心結論性宣言。
邏輯角色
結論將 FCOS 的意義提升至範式層次:不僅是一個更好的偵測器,更是對「錨框必要性」這一共識的挑戰。
論證技巧 / 潛在漏洞
「錨框不必要」的宣言大膽有力,但後續研究顯示錨框與無錨框方法各有優勢場景,FCOS 的結論可能過於絕對。
論證結構總覽
問題
錨框帶來超參數
敏感性與計算負擔
錨框帶來超參數
敏感性與計算負擔
→
論點
逐像素預測
可取代錨框
逐像素預測
可取代錨框
→
證據
44.7% AP COCO
超越所有單階段方法
44.7% AP COCO
超越所有單階段方法
→
反駁
FPN + center-ness
解決歧義與品質
FPN + center-ness
解決歧義與品質
→
結論
錨框非必要
偵測可統一於密集預測
錨框非必要
偵測可統一於密集預測
作者核心主張(一句話)
透過逐像素預測搭配 FPN 多尺度分配與 center-ness 品質評估,物件偵測可完全擺脫錨框,以更簡潔的架構達到更優越的效能。
論證最強處
系統性的消融驗證:每項設計(FPN 多尺度、center-ness 分支)都有獨立的消融實驗量化其貢獻。Center-ness 單獨帶來 +3.6% AP 的跳躍,FPN 將歧義從 23.16% 降至 7.14%。這種逐步建構的論證方式使每項創新的必要性都得到獨立驗證。
論證最弱處
Center-ness 的理論基礎薄弱:center-ness 公式雖然直覺且有效,但缺乏理論推導——為何此特定公式(幾何均值)是最佳選擇?對非凸物件或極端長寬比物件,中心未必是最佳預測位置。此外,44.7% AP 包含了額外技巧(可變形摺積),純粹 FCOS 的效能增幅相對較小。