RAFT-3D: Scene Flow Using Rigid-Motion Embeddings

Abstract — 摘要

This paper presents RAFT-3D, a new deep architecture for 3D scene flow estimation. RAFT-3D iteratively updates a dense field of pixelwise SE(3) motion, achieving state-of-the-art performance by representing scene motion as a collection of rigid-body transforms. The key innovation is rigid-motion embeddings, which provide a soft grouping of pixels into rigid objects, enabling the network to reason about scene structure. The system operates on RGB-D video and outperforms prior methods on FlyingThings3D and real-world scenes.

本文提出 RAFT-3D，一種用於三維場景流估計的全新深度架構。RAFT-3D 以迭代方式更新像素級 SE(3) 運動的密集場，透過將場景運動表示為剛體變換的集合，達成當前最佳性能。其核心創新在於剛體運動嵌入，提供像素到剛體物件的軟分群機制，使網路能夠推理場景結構。該系統以 RGB-D 影片作為輸入，在 FlyingThings3D 及真實世界場景上均超越先前方法。

段落功能全文總覽——以精煉語言勾勒核心貢獻：基於 SE(3) 的迭代場景流估計與剛體運動嵌入機制。

邏輯角色作為摘要，此段承擔「設定期望」的功能：先點出主方法（RAFT-3D），再闡明關鍵創新（剛體運動嵌入），最後以實驗結果背書。論述從架構設計到實證結果層層遞進。

論證技巧 / 潛在漏洞作者以「SE(3) 運動場」作為差異化賣點，強調幾何結構先驗的引入。然而摘要未量化「超越先前方法」的具體幅度，讀者需至實驗章節方能驗證。

1. Introduction — 緒論

Scene flow refers to the dense 3D motion field of a scene, capturing how every point moves in three-dimensional space between consecutive frames. Unlike optical flow, which only captures 2D pixel displacement, scene flow provides complete 3D motion information essential for autonomous driving, robotics, and dynamic scene understanding. Existing approaches typically decompose the problem into separate stereo matching and optical flow estimation, or operate directly on point clouds.

場景流是指場景的密集三維運動場，描述每個點在連續影格之間於三維空間中的運動方式。不同於僅捕捉二維像素位移的光流，場景流提供完整的三維運動資訊，對自動駕駛、機器人學及動態場景理解至關重要。現有方法通常將此問題分解為獨立的立體匹配與光流估計，或直接在點雲上進行運算。

段落功能建立研究場域——定義場景流的核心概念，並與光流進行區分，劃分現有方法的主要路線。

邏輯角色論證鏈的起點：先確立場景流的定義與重要性，再概述現有方法的分類，為後續批判與引入新方法奠定基礎。

論證技巧 / 潛在漏洞以「光流 vs. 場景流」的對比框架讓讀者快速理解問題定位，但將現有方法簡化為兩類可能遺漏了混合式方法的進展。

Current scene flow methods face significant limitations. Decomposition-based approaches suffer from error accumulation across sub-tasks and fail to exploit the geometric structure of rigid objects in the scene. Point cloud methods are limited by sparse and irregular point distributions, making it difficult to achieve dense, accurate predictions. Most critically, existing methods treat each pixel independently without considering that real-world scenes are composed of rigid bodies moving coherently.

當前的場景流方法面臨顯著的限制。基於分解的方法在子任務之間產生誤差累積，且未能利用場景中剛體物件的幾何結構。點雲方法受限於稀疏且不規則的點分布，難以達成密集、準確的預測。最關鍵的是，現有方法將每個像素獨立處理，未考慮真實世界場景是由一致運動的剛體所組成。

段落功能批判既有方法——系統性地列舉現有場景流方法的不足，構建「研究缺口」。

邏輯角色此段是「問題-解決方案」論證模式中的問題陳述。透過指出誤差累積、稀疏點雲限制及缺乏剛體先驗三項缺陷，為 RAFT-3D 的設計動機製造必要性。

論證技巧 / 潛在漏洞「剛體假設」的缺失被作為最核心的批判，為後續引入剛體運動嵌入做鋪墊。但此批判隱含了場景主要由剛體組成的假設，對非剛體場景（如流體、布料）的適用性未予討論。

RAFT-3D addresses these limitations by building upon the RAFT optical flow architecture and extending it to 3D. The method represents motion using dense SE(3) fields, where each pixel is assigned a rigid-body transformation. By introducing rigid-motion embeddings that softly group pixels sharing similar motion, the network can propagate information between pixels belonging to the same rigid object, enabling globally coherent motion estimation.

RAFT-3D 透過建立在 RAFT 光流架構之上並將其擴展至三維空間，來解決上述限制。該方法使用密集 SE(3) 場來表示運動，為每個像素分配一個剛體變換。透過引入將共享相似運動的像素進行軟分群的剛體運動嵌入，網路能夠在屬於同一剛體物件的像素之間傳播資訊，實現全域一致的運動估計。

段落功能提出解決方案——概括 RAFT-3D 的核心設計理念與架構基礎。

邏輯角色承接上段的問題陳述，此段扮演「轉折」角色：從「既有方法不足」過渡到「本文方案」。「全域一致的運動估計」直接回應上段「獨立處理每個像素」的缺陷。

論證技巧 / 潛在漏洞以 RAFT 作為基礎架構是明智的選擇——借助已被驗證的光流框架來降低讀者的理解門檻。但「軟分群」機制的具體實現尚未在此展開，讀者需等待方法章節。

Early scene flow methods formulated the problem as variational energy minimization, jointly estimating depth and motion. More recent learning-based approaches like FlowNet3D and PointPWC-Net operate directly on 3D point clouds using learned feature matching. However, these methods still process points independently and lack explicit modeling of rigid-body motion structure.

早期的場景流方法將問題表述為變分能量最小化，同時估計深度與運動。較近期的學習式方法如 FlowNet3D 和 PointPWC-Net 則直接在三維點雲上透過學習的特徵匹配進行運算。然而，這些方法仍然獨立處理各點，缺乏對剛體運動結構的顯式建模。

段落功能文獻回顧——概述場景流方法的演進，從傳統變分法到學習式方法。

邏輯角色延續緒論的批判脈絡，以更具體的方法名稱重申「缺乏剛體建模」的弱點，為 RAFT-3D 的剛體運動嵌入做鋪墊。

論證技巧 / 潛在漏洞將方法演進呈現為「變分法 → 點雲學習法 → 仍不足」的線性敘事，有效地將 RAFT-3D 定位為自然的下一步。但未討論同期的一些場景流方法（如 FLOT）已開始引入結構資訊。

The RAFT (Recurrent All-Pairs Field Transforms) architecture demonstrated that iterative refinement through a recurrent update operator on correlation volumes achieves superior optical flow estimation. Rigid-body segmentation methods have shown that scenes can be decomposed into independently moving rigid components, but these typically require separate segmentation and motion estimation stages.

RAFT（循環全配對場變換）架構證明了透過在相關性體積上的循環更新運算子進行迭代精煉，可達成優越的光流估計。剛體分割方法已表明場景可被分解為獨立運動的剛體組件，但這些方法通常需要分離的分割與運動估計階段。

段落功能定位技術基礎——介紹 RAFT 架構與剛體分割的相關進展。

邏輯角色此段為 RAFT-3D 的兩大技術支柱（RAFT 架構 + 剛體建模）分別建立文獻基礎，同時指出將兩者整合的研究缺口。

論證技巧 / 潛在漏洞將 RAFT 的成功與剛體分割的潛力並列，暗示兩者結合的自然性。但「分離階段」的批判需注意：端對端方法未必在所有場景下都優於分階段方法。

3. Proposed Approach — 提出方法

3.1 Rigid-Motion Embeddings — 剛體運動嵌入

RAFT-3D represents the motion of each pixel as a member of SE(3), the special Euclidean group of rigid-body transformations in 3D space. Each pixel is assigned a rotation (via unit quaternion) and a translation vector, forming a dense SE(3) field over the entire image. This representation inherently respects the geometric constraints of rigid motion, ensuring physically plausible scene flow estimates.

RAFT-3D 將每個像素的運動表示為 SE(3) 的成員，即三維空間中剛體變換的特殊歐幾里德群。每個像素被分配一個旋轉（透過單位四元數）與一個平移向量，在整幅影像上形成密集的 SE(3) 場。此表示方式本質上遵守剛體運動的幾何約束，確保物理上合理的場景流估計。

段落功能方法推導第一步——定義運動表示方式，從傳統的像素位移轉為 SE(3) 變換。

邏輯角色這是整個方法論的數學基礎。透過將運動空間從自由的三維位移約束為 SE(3) 群，引入了剛體先驗，為後續的剛體運動嵌入創造條件。

論證技巧 / 潛在漏洞「物理上合理」的論述具說服力——SE(3) 約束自然排除了非物理的運動模式。但每像素一個 SE(3) 變換意味著高維參數空間，計算效率的考量未在此段交代。

The core innovation is the rigid-motion embedding — a learned per-pixel feature vector that encodes which rigid body each pixel belongs to. Pixels with similar embeddings are softly grouped together, enabling information to flow between pixels belonging to the same rigid object during the iterative update process. This is implemented through a dense correlation volume weighted by embedding similarity, allowing the update operator to reason about rigid-body structure without explicit segmentation.

核心創新在於剛體運動嵌入——一個學習得到的逐像素特徵向量，編碼每個像素所屬的剛體。具有相似嵌入的像素被軟分群在一起，使資訊能夠在迭代更新過程中於屬於同一剛體物件的像素之間流動。此機制透過以嵌入相似度加權的密集相關性體積實現，讓更新運算子能夠推理剛體結構而無需顯式分割。

段落功能核心差異化——展示剛體運動嵌入如何實現隱式的剛體分群。

邏輯角色此段是全文論證的頂點：明確回答「為何 RAFT-3D 優於現有方法」。透過軟分群取代顯式分割，實現端對端的剛體感知場景流估計。

論證技巧 / 潛在漏洞「軟分群」而非「硬分割」是精妙的設計選擇，避免了分割錯誤的級聯效應。但嵌入空間的學習品質直接影響分群效果，若場景中存在大量非剛體運動，嵌入可能難以形成有意義的分群。

3.2 Iterative Update Operator — 迭代更新運算子

Following RAFT's design, RAFT-3D employs a GRU-based recurrent update operator that iteratively refines the SE(3) motion field. At each iteration, the operator looks up correlation features from a 4D correlation volume, combines them with context features and the current motion estimate, and produces an update to the SE(3) field. The rigid-motion embeddings modulate this process by enabling motion information to propagate across spatially distant but rigidly connected pixels, leading to faster convergence and more accurate results.

沿襲 RAFT 的設計，RAFT-3D 採用基於 GRU 的循環更新運算子，以迭代方式精煉 SE(3) 運動場。在每次迭代中，運算子從四維相關性體積中查詢相關性特徵，將其與上下文特徵及當前運動估計結合，產生對 SE(3) 場的更新。剛體運動嵌入透過使運動資訊能夠在空間上遙遠但剛性連接的像素之間傳播來調節此過程，實現更快的收斂與更精確的結果。

段落功能技術細節——描述迭代更新機制與剛體嵌入的整合方式。

邏輯角色將抽象的設計理念落實為具體的演算法流程：GRU 更新 + 相關性查詢 + 嵌入調節，三者構成完整的迭代精煉管線。

論證技巧 / 潛在漏洞強調「空間上遙遠但剛性連接」的像素間資訊傳播，有效地闡述了剛體嵌入的實際效益。但四維相關性體積的記憶體消耗在高解析度場景中可能成為瓶頸，作者未在此討論。

4. Experiments — 實驗

Experiments are conducted on FlyingThings3D and KITTI Scene Flow benchmarks. On FlyingThings3D, RAFT-3D achieves 3D end-point-error (EPE) of 0.051, reducing error by over 46% compared to the previous best method. On KITTI 2015 Scene Flow, RAFT-3D obtains state-of-the-art results across all metrics including SF-all (5.77%). Ablation studies confirm that rigid-motion embeddings contribute a 25% reduction in 3D EPE compared to a baseline without embeddings. The method also demonstrates strong generalization: models trained on synthetic data transfer effectively to real-world driving scenes.

實驗在 FlyingThings3D 和 KITTI 場景流基準上進行。在 FlyingThings3D 上，RAFT-3D 達到三維端點誤差（EPE）0.051，相較於先前最佳方法降低了超過 46% 的誤差。在 KITTI 2015 場景流上，RAFT-3D 在所有指標上均取得當前最佳結果，包括 SF-all（5.77%）。消融實驗確認剛體運動嵌入相較於無嵌入的基線貢獻了 25% 的三維 EPE 降低。該方法也展現出強大的泛化能力：在合成資料上訓練的模型能有效遷移至真實世界的駕駛場景。

段落功能提供全面的實驗證據——在多個基準上驗證方法的有效性，並透過消融實驗分離各組件的貢獻。

邏輯角色此段是整篇論文的實證支柱。資料覆蓋四個維度：(1) 合成資料集的絕對性能；(2) 真實世界基準的最佳結果；(3) 消融實驗確認嵌入的貢獻；(4) 跨域泛化能力。

論證技巧 / 潛在漏洞「46% 誤差降低」和「25% 嵌入貢獻」等具體數字極具說服力。但 KITTI 場景流基準的測試集規模較小（200 張），統計顯著性可能受限。此外，與同期方法（如 HPLFlowNet）的直接對比在此簡述中未充分展開。

5. Conclusion — 結論

RAFT-3D presents a new approach to scene flow estimation by operating in the space of rigid-body motions (SE(3)) and introducing rigid-motion embeddings for soft pixel grouping. The iterative update framework, inherited from RAFT, combined with structure-aware motion propagation through learned embeddings, achieves state-of-the-art performance on both synthetic and real-world benchmarks. The work demonstrates that incorporating geometric priors about rigid-body motion into deep networks leads to more accurate and physically plausible scene flow estimation.

RAFT-3D 透過在剛體運動空間（SE(3)）中運算並引入用於像素軟分群的剛體運動嵌入，提出了場景流估計的全新方法。繼承自 RAFT 的迭代更新框架，結合透過學習嵌入實現的結構感知運動傳播，在合成與真實世界基準上均達成當前最佳性能。本研究證明，將剛體運動的幾何先驗融入深度網路，能夠產生更準確且物理上合理的場景流估計。

段落功能總結全文——回顧核心貢獻並提煉整體訊息。

邏輯角色結論段與摘要形成首尾呼應，以三個層次概括貢獻：表示方式（SE(3)）、分群機制（嵌入）、整體啟示（幾何先驗的價值）。

論證技巧 / 潛在漏洞結論提煉出「幾何先驗融入深度網路」的一般性啟示，提升了論文的影響力。但未討論方法的局限性（如非剛體場景、計算複雜度）或未來研究方向，在學術規範上略顯不足。

論證結構總覽

問題
現有場景流方法
忽略剛體結構

→

論點
SE(3) 運動場結合
剛體運動嵌入

→

證據
FlyingThings3D 誤差
降低 46%

→

反駁
消融實驗確認
嵌入貢獻 25%

→

結論
幾何先驗提升
場景流精度與合理性

作者核心主張（一句話）

透過在 SE(3) 剛體運動空間中操作並以學習的嵌入實現像素間的結構感知資訊傳播，可達成遠超現有方法的場景流估計精度。

論證最強處

幾何先驗與資料驅動學習的融合：將 SE(3) 群的數學結構作為歸納偏置嵌入網路設計，使模型在保持學習彈性的同時遵守物理約束。消融實驗明確量化了各組件的貢獻，提供了令人信服的因果推理。

論證最弱處

剛體假設的適用範圍：方法的核心前提——場景由剛體組成——在包含大量非剛體運動（如行人衣物、樹葉擺動）的場景中可能失效。此外，RGB-D 輸入的依賴限制了在僅有 RGB 影像場景中的部署能力，而此限制未被充分討論。