EfficientDet: Scalable and Efficient Object Detection

Abstract — 摘要

In this paper, we systematically study neural network architecture design choices for object detection and propose several key optimizations to improve efficiency. First, we propose a weighted bi-directional feature pyramid network (BiFPN), which allows easy and fast multiscale feature fusion. Second, we propose a compound scaling method that uniformly scales the resolution, depth, and width for all backbone, feature network, and box/class prediction networks at the same time. Based on these optimizations, we develop a new family of object detectors, called EfficientDet, which consistently achieve much better efficiency than prior art across a wide spectrum of resource constraints. In particular, EfficientDet-D7 achieves 55.1 AP on COCO test-dev with 77M parameters and 410B FLOPs, being 4x-9x smaller and using 13x-42x fewer FLOPs than previous detectors.

本文系統性地研究物件偵測的神經網路架構設計選擇，並提出數項關鍵最佳化以提升效率。首先，我們提出加權雙向特徵金字塔網路（BiFPN），實現簡便且快速的多尺度特徵融合。其次，我們提出複合縮放方法，能同時統一縮放骨幹網路、特徵網路及框/類別預測網路的解析度、深度與寬度。基於這些最佳化，我們開發了一系列名為 EfficientDet 的物件偵測器，在各種資源限制條件下持續達到遠優於先前技術的效率。具體而言，EfficientDet-D7 以 7700 萬參數與 4100 億次浮點運算，在 COCO test-dev 上達到 55.1 AP，體積比先前偵測器小 4 至 9 倍，浮點運算量減少 13 至 42 倍。

段落功能全文總覽——以兩項技術貢獻（BiFPN + 複合縮放）與壓倒性的效率數據總結全文。

邏輯角色摘要採用「系統性研究 → 兩項創新 → 整合成產品（EfficientDet）→ 數據佐證」的四段式結構。最後以具體的參數量與 FLOPs 數據作結，極具衝擊力。

論證技巧 / 潛在漏洞 4-9 倍參數減少、13-42 倍 FLOPs 減少的數據令人印象深刻。但「倍數」的表述取決於比較對象的選擇——若對比的是已知效率較低的模型（如 NAS-FPN + AmoebaNet），則數字會被誇大。

1. Introduction — 緒論

Object detection has been driven by the development of more powerful but also increasingly expensive backbone networks. While accuracy has steadily improved, the computational cost has grown even faster, making deployment on resource-constrained devices challenging. A natural question is: is it possible to build a scalable detection architecture that achieves both higher accuracy and better efficiency?

物件偵測的進步一直由更強大但也愈加昂貴的骨幹網路所驅動。儘管準確度穩步提升，運算成本的成長速度卻更快，使得在資源受限的裝置上部署變得困難。一個自然的問題是：是否有可能建構一個可擴展的偵測架構，同時實現更高的準確度與更佳的效率？

段落功能建立研究動機——指出物件偵測中準確度與效率的矛盾。

邏輯角色以「準確度提升但成本增長更快」的矛盾作為切入點，製造「效率危機」的急迫感，為 EfficientDet 的設計哲學鋪路。

論證技巧 / 潛在漏洞以反問句引導讀者，是有效的修辭策略。但「可擴展」的定義需更精確——是指跨不同計算預算的擴展，還是跨不同任務的擴展？

We identify two main challenges: (1) efficient multi-scale feature fusion — previous methods like FPN treat all input features equally, but "features at different resolutions often contribute to the fused output feature unequally"; (2) model scaling — prior works scale only the backbone or feature network independently, leading to suboptimal accuracy-efficiency trade-offs.

我們識別出兩項主要挑戰：(1) 高效的多尺度特徵融合——先前的方法（如 FPN）將所有輸入特徵等同對待，但不同解析度的特徵對融合輸出特徵的貢獻往往並不均等；(2) 模型縮放——先前的工作僅獨立地縮放骨幹網路或特徵網路，導致次優的準確度-效率權衡。

段落功能問題分解——將效率挑戰拆解為兩個獨立且可解決的子問題。

邏輯角色此段為後續方法章節建立結構：挑戰 (1) 將由 BiFPN 解決，挑戰 (2) 將由複合縮放解決。一對一的問題-解決對應使論文結構清晰。

論證技巧 / 潛在漏洞「等同對待 vs. 加權」的批判對 FPN 而言是準確的，但 PANet 等後續工作已嘗試解決此問題，此處未充分區分 BiFPN 與 PANet 的差異。

Feature Pyramid Network (FPN) introduces a top-down pathway to fuse multi-scale features. PANet adds a bottom-up path on top of FPN. NAS-FPN uses neural architecture search to find the optimal feature network topology, but it is irregular, hard to interpret, and expensive to modify. For model scaling, EfficientNet demonstrated that compound scaling of depth, width, and resolution is more effective than single-dimension scaling for image classification. We extend this idea to object detection, jointly scaling the backbone, BiFPN, and prediction networks.

特徵金字塔網路（FPN）引入自頂向下的路徑來融合多尺度特徵。PANet 在 FPN 之上增加了自底向上的路徑。NAS-FPN 使用神經架構搜尋來尋找最佳特徵網路拓撲，但其結構不規則、難以解釋且修改成本高昂。在模型縮放方面，EfficientNet 證明了複合縮放深度、寬度與解析度比單一維度縮放在影像分類上更為有效。我們將此概念延伸至物件偵測，聯合縮放骨幹網路、BiFPN 與預測網路。

段落功能文獻回顧——追溯多尺度融合與模型縮放的技術演進。

邏輯角色以時間線呈現技術演進（FPN → PANet → NAS-FPN），最後以 EfficientNet 的複合縮放理念為 EfficientDet 提供理論基礎。「延伸至物件偵測」明確標示了本文的貢獻邊界。

論證技巧 / 潛在漏洞批判 NAS-FPN 的「不規則、難解釋」是有效的差異化策略，暗示 BiFPN 的手工設計具有更好的可解釋性與可修改性。但手工設計與自動搜尋的公平比較需要更多分析。

3. BiFPN — 雙向特徵金字塔網路

We propose BiFPN (Bi-directional Feature Pyramid Network) with two key improvements. First, we remove nodes with only one input edge, since a node with only one input cannot fuse features and thus contributes less. This simplification leads to a more efficient bi-directional (top-down + bottom-up) topology. Second, unlike FPN which treats all inputs equally, we add learnable weights for each input during feature fusion, allowing the network to learn the importance of different resolution features. We use fast normalized fusion: w_i / (sum(w_j) + epsilon), which achieves comparable accuracy to softmax-based fusion but runs 30% faster on GPU.

我們提出 BiFPN（雙向特徵金字塔網路），具有兩項關鍵改進。首先，我們移除僅有單一輸入邊的節點，因為僅有單一輸入的節點無法進行特徵融合，貢獻較小。此簡化產生了更高效的雙向（自頂向下 + 自底向上）拓撲結構。其次，不同於 FPN 等同對待所有輸入，我們在特徵融合時為每個輸入添加可學習的權重，使網路能夠學習不同解析度特徵的重要性。我們使用快速正規化融合：w_i / (sum(w_j) + epsilon)，其準確度與基於 softmax 的融合可比，但在 GPU 上執行速度快 30%。

段落功能核心技術貢獻之一——BiFPN 的拓撲簡化與加權融合機制。

邏輯角色此段直接回應緒論提出的挑戰 (1)。兩項改進各解決一個問題：拓撲簡化提升效率，加權融合提升表達能力。快速正規化融合則在兩者間取得實用平衡。

論證技巧 / 潛在漏洞「可學習權重」的設計直觀合理，但權重的可解釋性未被充分分析——學到的權重是否符合直覺（如高解析度特徵在小物體偵測中權重較高）？此外，epsilon 的選擇對數值穩定性有影響但未詳細討論。

3.1 Compound Scaling — 複合縮放

Inspired by EfficientNet, we propose a compound scaling method for object detection that jointly scales up all dimensions of the detector. Given a compound coefficient phi, we scale the backbone network using EfficientNet-B(phi), the BiFPN width and depth proportionally, and the input resolution using a heuristic formula. The box/class prediction network depth also increases with phi. This produces a family from EfficientDet-D0 (3.9M params, 2.5B FLOPs) to EfficientDet-D7 (77M params, 410B FLOPs), covering a wide spectrum of accuracy-efficiency trade-offs with a single unified architecture.

受 EfficientNet 啟發，我們提出一種用於物件偵測的複合縮放方法，聯合放大偵測器的所有維度。給定複合係數 phi，我們以EfficientNet-B(phi) 縮放骨幹網路，按比例縮放 BiFPN 的寬度與深度，並以啟發式公式縮放輸入解析度。框/類別預測網路的深度也隨 phi 增加。這產生了從 EfficientDet-D0（390 萬參數、25 億 FLOPs）到 EfficientDet-D7（7700 萬參數、4100 億 FLOPs）的系列模型，以單一統一架構涵蓋了廣泛的準確度-效率權衡範圍。

段落功能核心技術貢獻之二——將複合縮放從分類延伸至偵測。

邏輯角色此段回應緒論的挑戰 (2)。透過單一係數 phi 控制所有維度的縮放，將複雜的多維度設計空間簡化為一維搜尋問題，大幅降低了架構設計的複雜度。

論證技巧 / 潛在漏洞從 D0 到 D7 的系列設計展示了方法的實用性與靈活性。但啟發式縮放公式的推導未完全透明——各維度的縮放比例如何決定？是否存在更優的縮放策略但因搜尋空間限制而被忽略？

4. Experiments — 實驗

On COCO test-dev, the EfficientDet family achieves consistently better accuracy-efficiency trade-offs compared to prior detectors. EfficientDet-D0 achieves 34.6 AP with only 3.9M parameters, matching YOLOv3's 33.0 AP while being 28x smaller. EfficientDet-D7 achieves 55.1 AP, surpassing the previous best NAS-FPN + AmoebaNet's 50.7 AP while using 4x fewer parameters and 13x fewer FLOPs. Compared to RetinaNet, EfficientDet-D1 achieves similar accuracy (40.2 vs. 40.4 AP) with 8x fewer parameters and 21x fewer FLOPs.

在 COCO test-dev 上，EfficientDet 系列持續達到優於先前偵測器的準確度-效率權衡。EfficientDet-D0 僅以 390 萬參數達到 34.6 AP，匹配 YOLOv3 的 33.0 AP，同時體積小 28 倍。EfficientDet-D7 達到 55.1 AP，超越先前最佳的 NAS-FPN + AmoebaNet 之 50.7 AP，同時參數量減少 4 倍、FLOPs 減少 13 倍。相較於 RetinaNet，EfficientDet-D1 以相似的準確度（40.2 vs. 40.4 AP）達到 8 倍參數減少與 21 倍 FLOPs 減少。

段落功能提供核心量化證據——在 COCO 上全面展示效率優勢。

邏輯角色此段是論文的實證核心。策略性地選擇了三個不同規模的比較（D0 vs. YOLOv3、D7 vs. NAS-FPN、D1 vs. RetinaNet），覆蓋了從輕量到重量的全範圍，證明 EfficientDet 在所有規模上皆具優勢。

論證技巧 / 潛在漏洞多組「倍數」比較構成強烈的視覺衝擊力。但需注意：(1) 比較的基線發表時間各異，公平性需考量；(2) FLOPs 並不直接等同於推論速度，實際延遲可能受記憶體存取模式影響；(3) 未與同期的輕量偵測器（如 ThunderNet）進行比較。

Ablation studies demonstrate the effectiveness of each component. BiFPN improves AP by 4.1 points over the standard FPN baseline. Weighted feature fusion adds 0.4 AP over unweighted BiFPN. The compound scaling consistently outperforms single-dimension scaling: at 50B FLOPs, compound scaling achieves 46.3 AP vs. 43.9 AP for scaling resolution alone. These results confirm that both BiFPN and compound scaling contribute significantly to the final performance.

消融研究證明了每個組件的有效性。BiFPN 相較於標準 FPN 基線提升了 4.1 個 AP 百分點。加權特徵融合在未加權的 BiFPN 之上再增加 0.4 AP。複合縮放持續優於單一維度縮放：在 500 億 FLOPs 下，複合縮放達到 46.3 AP，而僅縮放解析度則為 43.9 AP。這些結果證實BiFPN 與複合縮放對最終性能皆有顯著貢獻。

段落功能消融實驗——分離各組件的貢獻並驗證設計選擇。

邏輯角色消融實驗將最終性能的提升歸因於具體組件：BiFPN 貢獻了主要改進（4.1 AP），加權融合提供了邊際增益（0.4 AP），複合縮放則在效率維度上提供了系統性優勢。

論證技巧 / 潛在漏洞消融設計全面且數據清晰。但加權融合的增益（0.4 AP）相對較小，需要更多實驗確認其統計顯著性。複合縮放的優勢（46.3 vs. 43.9）則更具說服力。

5. Conclusion — 結論

In this paper, we systematically study various architecture design choices for efficient object detection and propose BiFPN for efficient multi-scale feature fusion and a compound scaling method to jointly scale up all components of the detector. These optimizations lead to a new family of detectors, EfficientDet, that achieves 4x-9x parameter reduction and 13x-42x FLOPs reduction while maintaining state-of-the-art accuracy.

本文系統性地研究了高效物件偵測的各種架構設計選擇，並提出 BiFPN 實現高效多尺度特徵融合，以及複合縮放方法聯合放大偵測器的所有組件。這些最佳化催生了新的偵測器系列 EfficientDet，在維持最先進準確度的同時，實現 4 至 9 倍的參數減少與 13 至 42 倍的浮點運算減少。

段落功能總結全文——以兩項核心貢獻與效率數據作結。

邏輯角色結論完美對應緒論提出的兩項挑戰，形成嚴謹的論證閉環。數據的重複強調加深讀者印象。

論證技巧 / 潛在漏洞結論精煉有效，但缺乏對方法局限性的討論——例如 EfficientDet 在邊緣裝置上的實際推論延遲、對特定物體類別（小物體、密集物體）的表現差異、以及複合縮放公式的泛化性等議題均未提及。

論證結構總覽

問題
物件偵測效率不足
準確度與成本失衡

→

論點
BiFPN + 複合縮放
可系統性提升效率

→

證據
COCO 55.1 AP
4-9 倍參數減少

→

反駁
消融驗證每組件
皆有獨立貢獻

→

結論
統一架構覆蓋
全範圍效率需求

作者核心主張（一句話）

透過雙向加權特徵金字塔（BiFPN）與統一的複合縮放策略，EfficientDet 系列在所有計算預算範圍內，以數量級的效率優勢達到最先進的物件偵測準確度。

論證最強處

全範圍的效率優勢：從 D0 到 D7 的系列設計證明 EfficientDet 並非僅在單一計算預算下有效，而是在從行動裝置到伺服器的所有規模上持續勝出。4-9 倍參數減少與 13-42 倍 FLOPs 減少的數據在物件偵測領域具有里程碑意義，直接推動了高效偵測的研究方向。

論證最弱處

啟發式縮放的理論基礎：複合縮放的各維度比例由啟發式搜尋決定，缺乏理論最優性保證。此外，FLOPs 作為效率指標的局限性未被充分討論——實際推論延遲受記憶體頻寬、運算元支援等硬體因素影響。加權融合的邊際增益（0.4 AP）在統計上可能不顯著，削弱了此設計選擇的必要性論證。