摘要 1. 緒論 2. 相關工作 3. 方法 4. 實驗 5. 結論 論證總覽

Abstract — 摘要

Semantic segmentation on LiDAR point clouds is crucial for autonomous driving perception. Most existing methods rely solely on 3D point cloud features, ignoring the rich semantic information available from 2D images. In this paper, we propose 2DPASS (2D Priors Assisted Semantic Segmentation), a general training scheme that leverages 2D image priors to boost 3D LiDAR semantic segmentation. Our framework introduces a multi-scale fusion-to-single knowledge distillation approach, which first fuses multi-modal features at multiple scales and then distills the fused knowledge back into the 3D network. Extensive experiments on SemanticKITTI and NuScenes benchmarks demonstrate that 2DPASS achieves state-of-the-art performance, significantly outperforming existing methods on both datasets.
LiDAR 點雲上的語意分割對自動駕駛感知至關重要。現有方法大多僅依賴 3D 點雲特徵,忽略了2D 影像所蘊含的豐富語意資訊。本文提出 2DPASS(2D 先驗輔助語意分割),一種利用 2D 影像先驗來提升 3D LiDAR 語意分割的通用訓練方案。我們的框架引入了多尺度融合至單一知識蒸餾方法,先在多個尺度融合多模態特徵,再將融合後的知識蒸餾回 3D 網路。在 SemanticKITTI 與 NuScenes 基準上的大量實驗表明,2DPASS 達到了最先進的效能,在兩個資料集上均顯著超越現有方法。
段落功能 全文總覽——概述 2DPASS 的動機、方法與核心貢獻。
邏輯角色 摘要建立了「問題(3D 分割忽略 2D 資訊)→ 方案(2DPASS 融合蒸餾)→ 驗證(SOTA 效能)」的完整論證預告。
論證技巧 / 潛在漏洞 以「通用訓練方案」強調方法的廣泛適用性,但推論階段僅需 3D 網路這一特點也意味著 2D 先驗的品質對訓練結果有直接影響,此依賴性未被強調。

1. Introduction — 緒論

LiDAR-based 3D semantic segmentation assigns a semantic label to each point in the point cloud and serves as a fundamental component for autonomous driving systems. Recent advances have achieved impressive results using either point-based methods that process raw points directly or projection-based methods that convert point clouds into 2D representations such as range images or bird's-eye-view maps. However, these approaches typically operate on geometric features alone and do not exploit the complementary texture and color information available from camera images, which limits their ability to distinguish between visually similar but semantically different objects.
基於 LiDAR 的 3D 語意分割為點雲中的每個點指派語意標籤,是自動駕駛系統的基礎組件。近年來,無論是直接處理原始點的基於點的方法,還是將點雲轉換為距離影像或鳥瞰圖等 2D 表示的基於投影的方法,均取得了令人矚目的成果。然而,這些方法通常僅在幾何特徵上運作,未能利用相機影像所提供的互補紋理與顏色資訊,限制了其區分視覺上相似但語意不同物體的能力。
段落功能 建立問題意識——回顧現有 3D 語意分割方法並指出其不足。
邏輯角色 論證鏈起點:先建立 3D 分割的重要性,再指出「僅依賴幾何特徵」的根本性缺陷,為多模態融合的引入建立合理性。
論證技巧 / 潛在漏洞 以「視覺上相似但語意不同」的具體場景說明問題,增強讀者的直覺理解。但此問題是否普遍存在取決於具體的應用場景與 LiDAR 解析度。
Several recent works attempt to incorporate multi-modal information by fusing 2D image features with 3D point cloud features at inference time. While effective, these methods require both LiDAR and camera inputs during deployment, increasing system complexity and latency. Moreover, the misalignment between 2D and 3D representations and the difficulty of handling sensor failures present additional challenges. We argue that a more practical approach is to leverage 2D priors only during training, producing a 3D-only network at inference that benefits from multi-modal knowledge without the overhead of multi-sensor fusion.
近期數項工作嘗試在推論時融合 2D 影像特徵與 3D 點雲特徵以納入多模態資訊。雖然有效,但這些方法在部署時需要同時提供 LiDAR 和相機輸入,增加了系統複雜度與延遲。此外,2D 與 3D 表示之間的對齊偏差以及感測器故障的處理也帶來額外挑戰。我們主張更實用的做法是僅在訓練期間利用 2D 先驗,在推論時生成一個純 3D 網路,使其受益於多模態知識而無需多感測器融合的額外開銷
段落功能 反駁既有方法——指出推論時多模態融合的實際部署困難。
邏輯角色 從「問題」過渡到「解方」:先說明直接融合的缺陷(部署開銷),再提出「訓練時融合、推論時純 3D」的設計哲學。
論證技巧 / 潛在漏洞 以工程部署的實際限制(延遲、感測器故障)來論證設計決策,說服力強。但「訓練時融合」假設訓練資料必須包含配對的 LiDAR-影像資料,此前提條件值得注意。
Point cloud semantic segmentation methods can be broadly categorized into three families. Point-based methods, exemplified by PointNet and PointNet++, directly process unordered point sets using shared MLPs and local aggregation. Voxel-based methods discretize the space into regular grids and apply 3D sparse convolutions, with MinkowskiNet and Cylinder3D being representative works. Projection-based methods convert point clouds to 2D representations such as range views or multi-view images and leverage mature 2D convolutional neural networks. Each family has distinct trade-offs between spatial resolution, computational cost, and ability to capture local geometric structures.
點雲語意分割方法大致可分為三大類。基於點的方法以 PointNet 和 PointNet++ 為代表,使用共享 MLP 與區域聚合直接處理無序點集。基於體素的方法將空間離散化為規則網格並套用3D 稀疏摺積,MinkowskiNet 和 Cylinder3D 是代表性工作。基於投影的方法將點雲轉換為距離視圖或多視角影像等 2D 表示,利用成熟的 2D 摺積神經網路。各類方法在空間解析度、計算成本與捕捉局部幾何結構的能力之間存在不同的權衡。
段落功能 文獻回顧——系統性地分類現有 3D 語意分割方法。
邏輯角色 建立技術背景,使讀者理解 2DPASS 所處的研究脈絡。三類方法的分類為後續說明 2DPASS 與哪類方法結合奠定基礎。
論證技巧 / 潛在漏洞 分類清晰完整,但對各方法的效能比較僅以「權衡」帶過,未提供量化依據。
Multi-modal fusion for 3D understanding has gained increasing attention. Early approaches perform late fusion by concatenating predictions from separate 2D and 3D branches. More recent works explore point-level fusion, where 2D features are projected onto 3D points using camera-LiDAR calibration. Knowledge distillation from 2D to 3D has also been explored, but existing methods typically distill from a single scale and do not fully exploit the hierarchical structure of multi-modal features. Our 2DPASS addresses this gap by introducing multi-scale fusion followed by knowledge distillation, enabling richer transfer of 2D priors.
多模態融合用於 3D 理解日益受到關注。早期方法執行晚期融合,即將獨立的 2D 與 3D 分支之預測結果進行串接。較新的工作探索點級融合,透過相機-LiDAR 校準將 2D 特徵投影至 3D 點上。從 2D 到 3D 的知識蒸餾也有相關探索,但現有方法通常僅從單一尺度進行蒸餾,未能充分利用多模態特徵的層次結構。我們的 2DPASS 透過引入多尺度融合後再進行知識蒸餾,實現更豐富的 2D 先驗遷移,填補了此空缺。
段落功能 定位差異——回顧多模態融合方法並指出現有知識蒸餾的不足。
邏輯角色 透過指出現有方法「單尺度蒸餾」的局限,建立 2DPASS「多尺度融合蒸餾」的差異化優勢。
論證技巧 / 潛在漏洞 批評既有方法「未充分利用層次結構」是合理的,但多尺度融合是否會引入額外的對齊噪訊,此風險未被討論。

3. Method — 方法

The 2DPASS framework consists of three main components. First, a multi-modal feature extraction module that processes both point clouds and their corresponding 2D images using separate backbone networks. The 3D branch employs a sparse convolutional U-Net to extract multi-scale voxel features, while the 2D branch uses a standard CNN encoder to produce multi-scale image feature maps. Second, a Multi-scale Fusion-to-Single (MSFTS) module that fuses 2D and 3D features at multiple scales through point-to-pixel projection using calibration matrices, creating enriched multi-modal representations. Third, a knowledge distillation objective that transfers the multi-modal knowledge from the fused representation back to the pure 3D branch.
2DPASS 框架包含三個主要組件。首先是多模態特徵提取模組,使用獨立的骨幹網路分別處理點雲及其對應的 2D 影像。3D 分支採用稀疏摺積 U-Net 提取多尺度體素特徵,2D 分支使用標準的 CNN 編碼器產生多尺度影像特徵圖。其次是多尺度融合至單一(MSFTS)模組,透過點到像素的投影(使用校準矩陣)在多個尺度融合 2D 與 3D 特徵,產生豐富的多模態表示。最後是知識蒸餾目標,將多模態知識從融合表示遷移回純 3D 分支。
段落功能 方法論展開——系統描述 2DPASS 框架的三大組件。
邏輯角色 將核心思想「訓練時融合、推論時純 3D」具體化為可操作的架構:提取、融合、蒸餾三步驟環環相扣。
論證技巧 / 潛在漏洞 以清晰的三段式結構呈現方法,易於理解。但「校準矩陣」的精度直接影響融合效果,感測器校準誤差的穩健性未被提及。
The MSFTS module operates at each scale of the encoder hierarchy. For a given scale, 3D point features are projected onto the 2D image plane using known camera intrinsics and extrinsics, and the corresponding 2D features are retrieved via bilinear interpolation. The retrieved 2D features are concatenated with the 3D features and passed through an attention-based fusion layer that learns adaptive weights for each modality. The fused features at all scales are then aggregated into a single enriched representation. During training, the distillation loss minimizes the KL divergence between the logits of the fused branch and the pure 3D branch, ensuring that the 3D network internalizes the multi-modal knowledge. At inference, only the 3D branch is deployed, requiring no 2D input.
MSFTS 模組在編碼器層次的每個尺度上運作。對於給定尺度,3D 點特徵透過已知的相機內參與外參投影至 2D 影像平面,並透過雙線性內插擷取對應的 2D 特徵。擷取的 2D 特徵與 3D 特徵串接後輸入基於注意力的融合層,學習各模態的自適應權重。所有尺度的融合特徵隨後聚合為單一豐富表示。訓練時,蒸餾損失最小化融合分支與純 3D 分支之間邏輯值的 KL 散度,確保 3D 網路內化多模態知識。推論時僅部署 3D 分支,無需 2D 輸入
段落功能 技術細節補充——深入描述 MSFTS 模組的運作機制與蒸餾策略。
邏輯角色 將「多尺度融合蒸餾」從概念落實到具體操作:投影、擷取、注意力融合、KL 蒸餾,形成完整的技術管線。
論證技巧 / 潛在漏洞 「推論時僅部署 3D 分支」是核心賣點,有效回應了推論效率的疑慮。但注意力融合層的計算成本在訓練時的影響,以及是否存在更高效的融合策略,值得探討。
To further enhance segmentation accuracy, we introduce a scale-aware auxiliary loss that applies semantic supervision at each scale of the 3D encoder, encouraging the network to produce discriminative features early in the hierarchy. Additionally, we employ class-balanced sampling to address the severe class imbalance common in outdoor LiDAR datasets, where categories such as bicyclists and motorcyclists are significantly underrepresented compared to road surfaces and buildings. These design choices collectively contribute to robust performance across both common and rare object categories.
為進一步提升分割精確度,我們引入尺度感知輔助損失,在 3D 編碼器的每個尺度施加語意監督,促使網路在層次的早期即產生具判別力的特徵。此外,我們採用類別平衡取樣來處理室外 LiDAR 資料集常見的嚴重類別不平衡問題,其中腳踏車騎士和摩托車騎士等類別的表示遠少於道路表面和建築物。這些設計選擇共同促成了在常見與稀有物體類別上的穩健效能
段落功能 輔助技術介紹——描述增強效能的附加設計。
邏輯角色 補充主框架之外的重要細節:尺度感知損失與類別平衡取樣分別從特徵學習和資料層面完善方法。
論證技巧 / 潛在漏洞 以具體類別(腳踏車騎士 vs. 道路)說明不平衡問題,增強可信度。但類別平衡取樣的具體策略及其超參數敏感度未被詳述。

4. Experiments — 實驗

We evaluate 2DPASS on two major benchmarks: SemanticKITTI (19 classes, 22 sequences) and NuScenes (16 classes, 1000 scenes). On SemanticKITTI, 2DPASS achieves a mean IoU of 72.9% on the test set, surpassing previous state-of-the-art methods including Cylinder3D (68.9%), RPVNet (70.3%), and SPVCNN (67.4%). Notably, 2DPASS demonstrates particularly strong improvements on under-represented categories such as bicyclist (+5.2 IoU), motorcycle (+4.8 IoU), and person (+3.6 IoU), confirming the value of 2D texture priors for distinguishing fine-grained semantic classes. On NuScenes, 2DPASS achieves 79.4% mean IoU on the validation set, establishing a new state of the art.
我們在兩個主要基準上評估 2DPASS:SemanticKITTI(19 個類別、22 個序列)NuScenes(16 個類別、1000 個場景)。在 SemanticKITTI 上,2DPASS 在測試集上達到平均 IoU 72.9%,超越先前最先進方法,包括 Cylinder3D(68.9%)、RPVNet(70.3%)和 SPVCNN(67.4%)。值得注意的是,2DPASS 在低表示類別上展現出特別顯著的提升,如腳踏車騎士(+5.2 IoU)、摩托車(+4.8 IoU)和行人(+3.6 IoU),證實了 2D 紋理先驗對區分細粒度語意類別的價值。在 NuScenes 上,2DPASS 在驗證集上達到79.4% 平均 IoU,確立了新的最先進水準。
段落功能 提供核心實證——以基準測試資料展示 2DPASS 的效能優勢。
邏輯角色 實驗驗證的核心:具體數字(72.9% vs. 70.3%)和類別級分析共同支撐「2D 先驗有效」的論點。
論證技巧 / 潛在漏洞 以低表示類別的提升幅度作為亮點,巧妙呼應了緒論中「區分視覺相似物體」的問題陳述。但與同期多模態方法的比較較少,無法完全評估蒸餾帶來的資訊損失。
Ablation studies reveal the contribution of each component. Removing the multi-scale fusion and using only single-scale fusion decreases performance by 1.8 mIoU on SemanticKITTI, confirming the importance of hierarchical feature fusion. Replacing the attention-based fusion with simple concatenation leads to a 1.2 mIoU drop, showing that adaptive modality weighting is beneficial. Disabling the knowledge distillation objective entirely and relying only on joint training results in a 2.5 mIoU decrease, underscoring that explicit distillation is critical for effective transfer of 2D priors to the 3D network.
消融研究揭示了各組件的貢獻。移除多尺度融合而僅使用單尺度融合,效能下降1.8 mIoU(SemanticKITTI),確認了層次特徵融合的重要性。將注意力融合替換為簡單串接導致1.2 mIoU 的下降,顯示自適應模態加權的益處。完全停用知識蒸餾目標並僅依賴聯合訓練則導致2.5 mIoU 的下降,突顯顯式蒸餾對於有效將 2D 先驗遷移至 3D 網路至關重要
段落功能 驗證設計——透過消融研究定量評估各組件的貢獻。
邏輯角色 以逐步移除的方式驗證每個設計選擇的必要性,知識蒸餾的 2.5 mIoU 貢獻最大,呼應了方法的核心主張。
論證技巧 / 潛在漏洞 消融設計完整,每個組件的貢獻清晰可量化。但消融研究僅在 SemanticKITTI 上進行,是否在 NuScenes 上也有類似趨勢未被驗證。

5. Conclusion — 結論

We have presented 2DPASS, a novel training framework that leverages 2D image priors to enhance 3D LiDAR semantic segmentation through multi-scale fusion and knowledge distillation. By incorporating rich texture and color information from camera images during training, the resulting 3D-only network achieves state-of-the-art performance on SemanticKITTI and NuScenes without requiring 2D input at inference. Our approach demonstrates that the complementary nature of 2D and 3D modalities can be effectively exploited through a training-time fusion-and-distill paradigm, offering a practical path toward deploying high-accuracy point cloud segmentation in resource-constrained autonomous driving systems. Future directions include extending 2DPASS to temporal sequences and exploring self-supervised 2D pretraining for domains with limited labeled image data.
本文提出了 2DPASS一個透過多尺度融合與知識蒸餾來利用 2D 影像先驗以提升 3D LiDAR 語意分割的新穎訓練框架。藉由在訓練時納入來自相機影像的豐富紋理與顏色資訊,所得的純 3D 網路在SemanticKITTI 和 NuScenes 上達到最先進效能,且推論時無需 2D 輸入。我們的方法證明了2D 和 3D 模態的互補性可以透過訓練時融合蒸餾範式有效利用,為在資源受限的自動駕駛系統中部署高精確度點雲分割提供了實用路徑。未來方向包括將 2DPASS 擴展至時序序列,以及探索在標註影像資料有限的領域中使用自監督 2D 預訓練。
段落功能 全文總結——重申核心貢獻並展望未來方向。
邏輯角色 以「融合蒸餾範式」總結方法論貢獻,並以「資源受限系統」呼應緒論中的部署需求,形成完整論證閉環。
論證技巧 / 潛在漏洞 結論簡潔有力,未來方向務實可行。但未討論方法的局限性,如對 LiDAR-相機校準品質的依賴或在惡劣天氣條件下影像品質退化對訓練的影響。

論證結構總覽

問題
3D 分割忽略
2D 語意先驗
論點
訓練時融合蒸餾
推論時純 3D
證據
SemanticKITTI 72.9%
NuScenes 79.4% mIoU
反駁
推論無需相機輸入
降低部署複雜度
結論
2D-3D 融合蒸餾
是實用的多模態範式

核心主張

透過在訓練時進行多尺度 2D-3D 融合並蒸餾至純 3D 網路,2DPASS 在不增加推論負擔的前提下實現了 LiDAR 語意分割的最先進效能。

最強論點

在低表示類別上的顯著提升(腳踏車騎士 +5.2 IoU)有力證明了 2D 紋理先驗對於區分幾何相似但語意不同的物體類別不可或缺。

最弱環節

框架依賴高品質的 LiDAR-相機校準資料,在校準偏差或惡劣天氣(影像品質退化)下的穩健性未被充分評估,限制了方法在極端條件下的可靠性論證。

核心論點 / Thesis
關鍵概念 / 術語
實證證據 / 資料
讓步 / 反駁處理
方法論說明