Abstract — 摘要
We present a study on rethinking the bottleneck structure for efficient mobile network design. We revisit the widely used inverted residual bottleneck in MobileNetV2 and show that the expansion-depthwise-projection design may not be optimal. We propose a new sandglass block that reverses the structure: narrow-wide-narrow becomes wide-narrow-wide, performing identity mapping on high-dimensional features. This design outperforms MobileNetV2 on ImageNet with fewer FLOPs.
我們提出關於重新思考高效行動網路設計中瓶頸結構的研究。我們重新審視 MobileNetV2 中廣泛使用的倒殘差瓶頸,展示擴展-深度可分離-投影的設計可能非最優。我們提出新的沙漏塊,逆轉結構:窄-寬-窄變為寬-窄-寬,在高維特徵上執行恆等映射。此設計在更少 FLOPs 下超越 MobileNetV2 的 ImageNet 效能。
段落功能
全文總覽——挑戰主流倒殘差設計,提出逆向結構。
邏輯角色
「逆轉」的核心思想簡潔有力,直接挑戰廣泛接受的設計範式。
論證技巧 / 潛在漏洞
以具體的效能數據開場增強說服力,但需要理論基礎支撐設計選擇。
1. Introduction — 緒論
The inverted residual block in MobileNetV2 uses an expansion layer to increase channel dimensions, a depthwise separable convolution, and a projection layer to reduce dimensions. The shortcut connection operates on the low-dimensional bottleneck, which we argue discards important information and limits gradient flow. We propose to perform the shortcut on the high-dimensional representation instead, maintaining richer information across layers.
MobileNetV2 中的倒殘差塊使用擴展層增加通道維度、深度可分離摺積和投影層減少維度。捷徑連接在低維瓶頸上操作,我們認為這丟棄了重要資訊並限制了梯度流。我們提議改在高維表徵上執行捷徑,跨層維持更豐富的資訊。
段落功能
問題定位——指出倒殘差設計中捷徑連接的資訊損失。
邏輯角色
「低維捷徑丟棄資訊」的論點簡明有力,從資訊理論角度建立了改進的必要性。
論證技巧 / 潛在漏洞
挑戰被廣泛採用的設計需要充分的實驗支持,風險與回報並存。
From an information bottleneck perspective, the inverted residual's shortcut on low-dimensional features forces the network to compress all information into a narrow channel. This is particularly problematic when spatial features are important, as the projection step inevitably loses spatial details. Our sandglass design avoids this by maintaining the high-dimensional representation in the shortcut path, allowing spatial information to flow freely across blocks.
從資訊瓶頸角度,倒殘差在低維特徵上的捷徑迫使網路將所有資訊壓縮到窄通道中。這在空間特徵重要時尤為問題,因為投影步驟不可避免地損失空間細節。我們的沙漏設計透過在捷徑路徑中維持高維表徵來避免此問題,允許空間資訊在塊間自由流動。
段落功能
理論分析——從資訊瓶頸角度闡述設計動機。
邏輯角色
資訊理論的視角為結構逆轉提供了堅實的理論依據。
論證技巧 / 潛在漏洞
高維捷徑意味著更多參數通過捷徑,但深度可分離摺積仍在低維運作,保持效率。
2. Method — 方法
The proposed sandglass block reverses the inverted residual structure. It starts with high-dimensional input features, applies depthwise convolutions to capture spatial information, then reduces dimensions with a linear bottleneck, and finally expands back to the original high dimension. The residual connection bridges the high-dimensional input and output, preserving maximum information through the shortcut. This design maintains the efficiency of depthwise separable convolutions while improving information flow.
提出的沙漏塊逆轉了倒殘差結構。它從高維輸入特徵開始,施加深度可分離摺積捕獲空間資訊,然後以線性瓶頸降低維度,最後擴展回原始高維度。殘差連接橋接高維輸入與輸出,透過捷徑保留最大資訊。此設計在維持深度可分離摺積效率的同時改善資訊流。
段落功能
核心設計——沙漏塊的完整結構與資訊流分析。
邏輯角色
高維殘差連接的理論基礎明確:恆等映射應在最資訊豐富的表徵上執行。
論證技巧 / 潛在漏洞
設計簡潔且改動最小化,易於在現有框架中採用,降低了實際部署的門檻。
2.1 Design Analysis — 設計分析
We provide both theoretical analysis and empirical evidence for the sandglass design. From an information theory perspective, the shortcut on high-dimensional features preserves more mutual information between input and output. We also show that gradient magnitude through the sandglass block is larger than through the inverted residual, indicating better gradient flow during training.
我們為沙漏設計提供理論分析和實驗證據。從資訊理論角度,高維特徵上的捷徑保留了更多輸入與輸出之間的互資訊。我們也展示沙漏塊的梯度幅度大於倒殘差塊,顯示訓練時更好的梯度流。
段落功能
理論支撐——從資訊理論和梯度分析兩角度佐證設計。
邏輯角色
雙重理論支撐增強了設計選擇的說服力,超越了純經驗性的改進。
論證技巧 / 潛在漏洞
資訊理論分析是嚴謹的附加值,但實際效能仍需大規模實驗驗證。
3. Experiments — 實驗
On ImageNet classification, our MobileNeXt with sandglass blocks achieves 74.02% top-1 accuracy with 300M FLOPs, compared to MobileNetV2's 72.0% at 300M FLOPs — a 2% improvement at the same computational cost. On COCO object detection, MobileNeXt as backbone improves SSDLite mAP by 1.7% over MobileNetV2. The model also shows better transferability to downstream tasks.
在 ImageNet 分類上,搭載沙漏塊的 MobileNeXt 以 300M FLOPs 達到 74.02% top-1 準確率,相比 MobileNetV2 在 300M FLOPs 下的 72.0%——在相同計算成本下提升 2%。在 COCO 物件偵測上,MobileNeXt 作為骨幹使 SSDLite mAP 提升 1.7%。模型也展現更好的下游任務遷移性。
段落功能
定量評估——ImageNet 和 COCO 上的一致改進。
邏輯角色
同 FLOPs 下 +2% 的改進在行動網路領域極為顯著。
論證技巧 / 潛在漏洞
改進在分類和偵測兩個任務上一致,證明了設計的通用性。
Ablation studies further validate the design choices. Comparing shortcut on high-dimensional vs low-dimensional features shows a consistent +1.5% advantage for high-dimensional shortcuts across different model sizes. The depthwise convolution placement (before vs after bottleneck) also matters: placing it before the reduction step captures richer spatial information, contributing +0.6% accuracy.
消融研究進一步驗證設計選擇。比較高維 vs 低維特徵上的捷徑顯示在不同模型尺寸下一致的高維捷徑 +1.5% 優勢。深度可分離摺積的放置位置(瓶頸前 vs 瓶頸後)也很重要:放在降維步驟前捕獲更豐富的空間資訊,貢獻 +0.6% 準確率。
段落功能
消融分析——驗證高維捷徑與摺積放置的各自貢獻。
邏輯角色
跨模型尺寸的一致性增強了結論的可靠性。
論證技巧 / 潛在漏洞
摺積放置的 +0.6% 改進看似微小,但在行動網路的效能區間中相當重要。
4. Conclusion — 結論
We have challenged the inverted residual bottleneck design and shown that reversing the structure — performing shortcuts on high-dimensional features — yields better mobile networks. The sandglass block is a simple yet effective alternative that improves both accuracy and efficiency. We hope this work encourages the community to revisit established architectural designs with fresh perspectives.
我們挑戰了倒殘差瓶頸設計,展示逆轉結構——在高維特徵上執行捷徑——產生更好的行動網路。沙漏塊是一個簡潔而有效的替代方案,同時改善準確度和效率。我們希望本研究鼓勵學界以新視角重新審視既有的架構設計。
段落功能
總結——呼籲重新審視既有設計範式。
邏輯角色
「重新審視既有設計」的呼籲具有廣泛的啟發性,超越了單一架構的改進。
論證技巧 / 潛在漏洞
簡單的結構逆轉帶來顯著改進,體現了基礎研究的價值。
論證結構總覽
問題
倒殘差捷徑損失資訊
倒殘差捷徑損失資訊
→
論點
高維捷徑更優
高維捷徑更優
→
方法
沙漏塊逆轉結構
沙漏塊逆轉結構
→
證據
同 FLOPs 下 +2%
同 FLOPs 下 +2%
→
結論
重新審視基礎設計
重新審視基礎設計
核心主張
透過逆轉倒殘差結構使殘差連接在高維特徵上執行,可在相同計算成本下顯著提升行動網路的準確度。
論證最強處
同 FLOPs 下 +2% ImageNet 準確率的改進極為顯著,且有資訊理論和梯度分析的雙重理論支撐。
論證最弱處
對比實驗主要與 MobileNetV2 比較,缺少與其他現代輕量架構(EfficientNet-Lite 等)的全面對比。