X3D: Expanding Architectures for Efficient Video Recognition

Abstract — 摘要

This paper presents X3D, a family of efficient video networks that progressively expand a tiny 2D image classification architecture along multiple network axes — temporal duration, frame rate, spatial resolution, width, bottleneck width, and depth. Inspired by machine-driven architecture search in image recognition, X3D achieves "state-of-the-art performance while requiring 4.8x and 5.5x fewer multiply-adds and parameters" compared to previous methods.

本文提出 X3D，一系列高效的影片辨識網路，透過沿多個網路軸向（時間長度、幀率、空間解析度、寬度、瓶頸寬度及深度）漸進式地擴展一個微型 2D 影像分類架構。受影像辨識中機器驅動架構搜尋的啟發，X3D 在達到最先進性能的同時，所需的乘加運算量與參數量分別減少 4.8 倍與 5.5 倍。

段落功能全文總覽——點出 X3D 的核心理念（多軸擴展）與關鍵成果（大幅降低計算成本）。

邏輯角色摘要以效率為核心賣點，先界定方法（漸進擴展），再以量化數字（4.8x/5.5x）強調優勢，設定讀者期望。

論證技巧 / 潛在漏洞以具體倍數（4.8x、5.5x）作為摘要的核心數字極具吸引力。但「比較對象」未在此明確——讀者需進入正文方能確認基準方法為何。

1. Introduction — 緒論

Video understanding models have grown increasingly complex, with architectures like I3D, SlowFast, and Non-local Networks achieving strong accuracy but at significant computational cost. The design of these architectures largely relies on manual exploration guided by human intuition, raising the question: can we systematically find efficient video architectures through principled expansion from a minimal base model?

影片理解模型日益複雜，I3D、SlowFast 及非局部網路等架構雖達到優異準確率，卻伴隨著可觀的計算成本。這些架構的設計主要依賴人工探索與直覺引導，由此引出一個核心問題：能否透過從最小基礎模型出發的系統化擴展，來尋找高效的影片架構？

段落功能建立研究動機——指出影片模型的效率瓶頸與人工設計的侷限。

邏輯角色以提問方式（「能否系統化地...」）引出研究問題，為漸進擴展策略的引入製造必要性。

論證技巧 / 潛在漏洞將「人工設計」塑造為問題，暗示機器驅動的搜尋更優。但 NAS（網路架構搜尋）本身也有高昂的搜尋成本，此處未預先回應此潛在質疑。

Drawing inspiration from EfficientNet's compound scaling in image recognition, X3D extends this principle to the video domain by considering six expansion axes: temporal duration, frame rate, spatial resolution, network width, bottleneck ratio, and network depth. Rather than scaling all axes simultaneously, X3D expands one axis at a time in a stepwise forward expansion, followed by backward contraction to meet target complexity.

借鑒 EfficientNet 在影像辨識中的複合縮放策略，X3D 將此原則擴展至影片領域，考慮六個擴展軸向：時間長度、幀率、空間解析度、網路寬度、瓶頸比率及網路深度。不同於同時縮放所有軸向，X3D 採用逐步前向擴展策略，每次僅擴展一個軸向，再透過反向收縮達到目標複雜度。

段落功能提出解決方案——概述六軸擴展與「前向擴展-反向收縮」的搜尋策略。

邏輯角色此段將影像領域的成功經驗（EfficientNet）遷移至影片領域，既提供了方法的理論依據，也界定了 X3D 的獨特貢獻——多軸解耦搜尋。

論證技巧 / 潛在漏洞以 EfficientNet 作為類比錨點具說服力，但影片的時間維度與影像有本質差異——「逐軸擴展」是否足以捕捉時空交互作用的最佳配置值得商榷。

Early approaches like C3D and I3D directly extend 2D convolutions to 3D, incurring heavy computational overhead. Separable convolutions (e.g., R(2+1)D, S3D) decompose 3D convolutions into spatial and temporal components for improved efficiency. SlowFast Networks introduce dual-pathway architectures operating at different temporal resolutions. Neural Architecture Search (NAS) has been applied to video models but typically searches within a fixed computational budget rather than across multiple complexity levels.

早期方法如 C3D 與 I3D 直接將 2D 摺積擴展為 3D，帶來沉重的計算負擔。可分離摺積（如 R(2+1)D、S3D）將 3D 摺積分解為空間與時間分量以提升效率。SlowFast 網路引入以不同時間解析度運作的雙路徑架構。網路架構搜尋（NAS）已被應用於影片模型，但通常在固定計算預算內搜尋，而非跨越多個複雜度層級。

段落功能文獻回顧——梳理影片辨識架構的演進脈絡，從暴力 3D 摺積到高效架構設計。

邏輯角色透過展示現有方法在「效率」維度上的漸進改善，為 X3D 的「系統化效率最佳化」定位提供歷史脈絡。

論證技巧 / 潛在漏洞將 NAS 的「固定預算」限制與 X3D 的「跨層級」搜尋做對比是有效的差異化策略。但作者自身的 SlowFast 作為比較對象可能引發利益衝突的疑慮——需以公正的實驗數字說話。

3. Proposed Approach — 提出方法

3.1 Progressive Network Expansion — 漸進式網路擴展

X3D begins with a minimal base architecture X2D, a lightweight 2D MobileNet-like model operating on a single frame. The forward expansion proceeds in steps: at each step, one axis is expanded by a fixed factor, trained and evaluated, and the axis yielding the best accuracy-complexity trade-off is selected. This greedy search explores only ~30 models total rather than the combinatorial space of all axis combinations.

X3D 從一個最小基礎架構 X2D 出發——一個類似 MobileNet 的輕量 2D 模型，僅處理單幀。前向擴展逐步進行：每一步以固定因子擴展一個軸向，訓練並評估後，選擇準確率-複雜度權衡最佳的軸向。此貪婪搜尋僅需探索約 30 個模型，而非所有軸向組合的指數級空間。

段落功能方法核心——詳述前向擴展的貪婪搜尋策略與計算效率。

邏輯角色此段回答了「如何從最小模型到最終架構」的關鍵問題。「僅 30 個模型」的搜尋成本直接回應了 NAS 計算昂貴的質疑。

論證技巧 / 潛在漏洞「僅 30 個模型」大幅降低了搜尋門檻，但貪婪搜尋無法保證全域最優——不同軸向之間的交互效應可能被忽略。此限制作者雖有意識但未深入討論替代方案。

After forward expansion reaches a desired accuracy level, backward contraction systematically reduces each axis to find the most efficient architecture at each target complexity. This produces a family of models: X3D-XS, X3D-S, X3D-M, X3D-L, X3D-XL, spanning a wide range of computational budgets from 0.6 GFLOPs to 48.4 GFLOPs. The expansion reveals that temporal resolution and spatial resolution are consistently the most impactful axes, while width expansion shows diminishing returns.

前向擴展達到目標準確率後，反向收縮系統性地削減各軸向，以在每個目標複雜度下找到最高效的架構。這產生了一系列模型：X3D-XS、X3D-S、X3D-M、X3D-L、X3D-XL，涵蓋從 0.6 GFLOPs 到 48.4 GFLOPs 的廣泛計算預算範圍。擴展過程揭示，時間解析度與空間解析度始終是影響最大的軸向，而寬度擴展則呈現遞減回報。

段落功能展示方法產出——X3D 模型家族與架構搜尋的洞察。

邏輯角色此段將方法論轉化為具體成果：不僅產出了實用的模型系列，更提供了關於「哪些維度對影片理解最重要」的經驗洞察。

論證技巧 / 潛在漏洞「時間與空間解析度最重要」的洞察具有普遍性意義，但此結論基於特定的搜尋起點與擴展策略——不同的基礎架構可能導出不同的結論。

4. Experiments — 實驗

On Kinetics-400, X3D-M achieves 76.0% top-1 accuracy with only 6.2 GFLOPs, while SlowFast 8x8 R50 requires 65.7 GFLOPs for 77.0%. X3D-XL reaches 79.1% top-1 with 48.4 GFLOPs, comparable to SlowFast 16x8 R101+NL at 234 GFLOPs — achieving 4.8x fewer FLOPs and 5.5x fewer parameters. On Kinetics-600, X3D-XL achieves 81.9% top-1 accuracy. Transfer experiments on Charades and AVA confirm generalization ability.

在 Kinetics-400 上，X3D-M 以僅 6.2 GFLOPs 達到 76.0% top-1 準確率，而 SlowFast 8x8 R50 需要 65.7 GFLOPs 方能達到 77.0%。X3D-XL 以 48.4 GFLOPs 達到 79.1% top-1，與需要 234 GFLOPs 的 SlowFast 16x8 R101+NL 相當——實現了4.8 倍更少的 FLOPs 與 5.5 倍更少的參數量。在 Kinetics-600 上，X3D-XL 達到 81.9% top-1 準確率。在 Charades 與 AVA 上的遷移實驗確認了泛化能力。

段落功能核心實驗證據——以大量數字展示效率與準確率的優勢。

邏輯角色此段是全文的實證核心，直接驗證摘要中「4.8x/5.5x」的核心主張。跨資料集的遷移實驗進一步強化了方法的通用性。

論證技巧 / 潛在漏洞將 X3D-XL（79.1%）與 SlowFast R101+NL（同等準確率但 5x 計算量）做對比極具震撼力。但需注意，FLOPs 的減少不一定等同於實際推論速度的提升——記憶體存取模式與硬體利用率也是關鍵因素。

5. Conclusion — 結論

X3D demonstrates that progressively expanding a tiny 2D architecture along multiple axes can produce a family of highly efficient video models. The stepwise expansion and contraction strategy achieves state-of-the-art accuracy-efficiency trade-offs with minimal search cost. The approach reveals that temporal and spatial resolution are the most critical expansion axes for video understanding, providing valuable design insights for future architectures.

X3D 證明了從微型 2D 架構沿多個軸向漸進擴展，能產出一系列高效的影片模型。逐步擴展與收縮策略以最低搜尋成本達到最先進的準確率-效率權衡。此方法揭示了時間與空間解析度是影片理解中最關鍵的擴展軸向，為未來架構設計提供了寶貴的洞察。

段落功能總結全文——重申方法、成果與設計洞察三個層次。

邏輯角色結論與摘要首尾呼應，將「效率」與「洞察」並列為雙重貢獻。

論證技巧 / 潛在漏洞結論額外強調「設計洞察」（時間/空間最重要）作為附加貢獻是聰明的策略。但未討論方法在非 Kinetics 類資料（如長影片理解）上的適用性，以及貪婪搜尋的理論局限。

論證結構總覽

問題
影片模型計算
成本過高

→

論點
多軸漸進擴展
可系統化降低成本

→

證據
4.8x 更少 FLOPs
5.5x 更少參數

→

反駁
貪婪搜尋僅需
~30 模型即足夠

→

結論
X3D 家族兼具
效率與準確率

作者核心主張（一句話）

從微型 2D 模型出發，沿六個軸向進行漸進式擴展與收縮，可在大幅降低計算成本的同時達到最先進的影片辨識性能。

論證最強處

效率提升的幅度驚人：以不到五分之一的計算量匹敵遠更龐大的模型，且僅需約 30 次實驗即可完成架構搜尋。此外，「時間與空間解析度最重要」的洞察為影片模型設計提供了可操作的指導原則。

論證最弱處

貪婪搜尋的局限性：逐軸擴展無法捕捉軸向間的交互效應，可能錯失全域最優架構。此外，FLOPs 作為效率指標的代表性有限——實際部署中的延遲、吞吐量與記憶體消耗可能呈現不同的趨勢。