摘要 1. 緒論 2. 相關工作 3. 方法 3.2 動態場景擴展 3.3 一致性深度 4. 實驗 5. 結論 論證總覽

Abstract — 摘要

We present a system for accurate, fast, and robust estimation of camera parameters and depth maps from casual monocular videos of dynamic scenes. Traditional structure-from-motion (SfM) and monocular SLAM techniques typically struggle with dynamic scenes lacking substantial parallax. We demonstrate that a deep visual SLAM framework, with careful modifications to its training and inference schemes, can scale to real-world videos of complex dynamic scenes with unconstrained camera paths. Our key contributions include integrating monocular depth priors and motion probability maps into differentiable SLAM, introducing uncertainty-aware global bundle adjustment, and obtaining consistent video depths without test-time network fine-tuning.
本文提出一套系統,能從日常拍攝的動態場景單目影片中,精確、快速且穩健地估計相機參數與深度圖。傳統的運動恢復結構(SfM)單目 SLAM 技術在面對缺乏充足視差的動態場景時往往力不從心。我們證明,透過對深度視覺 SLAM 框架的訓練與推論機制進行審慎修改,該系統能夠擴展至具有不受約束相機路徑的複雜動態真實場景影片。主要貢獻包括:將單目深度先驗與運動機率圖整合至可微分 SLAM 中、引入不確定性感知的全域光束法平差,以及在無需測試時期網路微調的情況下取得一致的影片深度
段落功能 全文總覽——以遞進方式從傳統方法的局限出發,引出 MegaSaM 的定位與核心貢獻。
邏輯角色 摘要同時承擔「問題界定」與「方案預告」的雙重功能:先點出動態場景與有限視差的雙重挑戰,再以四項貢獻清晰勾勒解決路徑。
論證技巧 / 潛在漏洞 以「careful modifications」強調本文並非從零打造全新系統,而是對既有深度 SLAM 框架的巧妙改良——這種定位既務實又降低了讀者的理解門檻。但「無需測試時期微調」的主張需待實驗驗證其深度品質是否真能與微調方法匹敵。

1. Introduction — 緒論

Extracting camera parameters and scene geometry from images represents a fundamental problem in computer vision, commonly referred to as structure from motion (SfM) or Simultaneous Localization and Mapping (SLAM). Conventional algorithms perform well with stationary scenes featuring large camera baselines but often falter when applied to casual monocular videos captured in uncontrolled settings. Casual videos typically exhibit limited camera motion parallax, broad focal length ranges, and moving objects — all of which violate the assumptions of classical SfM pipelines.
從影像中提取相機參數與場景幾何,是電腦視覺中的基本問題,通常稱為運動恢復結構(SfM)或同步定位與地圖建構(SLAM)。傳統演算法在具有大基線的靜態場景下表現良好,但當應用於不受控環境中拍攝的日常單目影片時,往往力不從心。日常影片通常呈現有限的相機運動視差、寬廣的焦距範圍,以及移動中的物件——這些都違反了經典 SfM 管線的假設前提。
段落功能 建立研究場域——定義核心問題並揭示傳統方法的根本限制。
邏輯角色 論證鏈的起點:先確立 SfM/SLAM 的重要性,再明確指出「日常影片」這一新興且具挑戰性的應用情境,為後續的方案需求鋪路。
論證技巧 / 潛在漏洞 以「casual」(日常)一詞精準定義目標場景的特徵,暗示傳統方法為受控環境設計。三個限制(視差不足、焦距多變、物件移動)的並列陳述,有效凸顯了問題的多面性。
Recent approaches employ two main strategies: optimizing through mono-depth network fine-tuning or radiance field reconstruction, or combining intermediate estimates via global optimization. However, these approaches are computationally expensive or brittle when applied to unconstrained videos. Methods based on test-time optimization require hours of processing per video, while learning-based approaches like MonST3R adopt 3D point cloud representations and localize cameras via alignment optimization, but may lack robustness on diverse in-the-wild footage.
近期方法主要採用兩種策略:透過單目深度網路微調或輻射場重建進行最佳化,或是透過全域最佳化整合中間估計結果。然而,這些方法在應用於不受約束的影片時,要麼計算成本過高,要麼缺乏穩健性。基於測試時期最佳化的方法每段影片需要數小時的處理時間,而基於學習的方法(如 MonST3R)雖採用三維點雲表示並透過對齊最佳化定位相機,但在多樣化的野外影像上可能欠缺穩健性
段落功能 批判既有方法——歸納兩類策略並指出各自的弱點。
邏輯角色 論證鏈的「問題深化」:在確立需求後,展示現有解決方案的不足。「計算昂貴」與「脆弱」兩個維度的批判,為 MegaSaM 的「快速且穩健」定位創造了精準的對比空間。
論證技巧 / 潛在漏洞 以「hours of processing」具體化計算成本問題,增強說服力。但對 MonST3R 等同期工作的批判或有選擇性——作者需在實驗中提供公平的定量比較來支撐這些評斷。
We introduce MegaSaM, providing accurate, fast and robust camera tracking and depth estimation from in-the-wild monocular videos. Our key innovations include: extending deep visual SLAM frameworks for dynamic content by predicting per-pixel motion probability maps; integrating monocular depth priors into differentiable bundle adjustment for initialization and regularization; introducing uncertainty-aware global bundle adjustment that leverages the approximate Hessian to determine when depth regularization is needed; and obtaining consistent video depths through first-order optimization without costly test-time network fine-tuning.
我們提出 MegaSaM為野外單目影片提供精確、快速且穩健的相機追蹤與深度估計。核心創新包括:透過預測逐像素運動機率圖,將深度視覺 SLAM 框架擴展至動態內容將單目深度先驗整合至可微分光束法平差中以進行初始化與正則化;引入不確定性感知的全域光束法平差,利用近似海森矩陣判定何時需要深度正則化;以及透過一階最佳化取得一致的影片深度,無需耗費大量資源的測試時期網路微調
段落功能 提出解決方案——完整列舉 MegaSaM 的四項核心創新。
邏輯角色 承接前段的缺口分析,此段扮演「轉折」角色:從「現有方法不足」過渡到「本文方案」。四項創新分別回應動態場景、深度初始化、觀測性判斷與效率問題。
論證技巧 / 潛在漏洞 以清晰的條列式結構呈現貢獻,讓讀者快速掌握全貌。「不確定性感知」的光束法平差是最具理論深度的貢獻——利用海森矩陣的可觀測性分析來自適應地調整正則化,在方法論上頗具新意。
SLAM and SfM are used to estimate camera parameters and 3D scene structure from video sequences or unstructured image collections. Conventional approaches estimate 2D correspondences through feature matching or photometric alignment, then optimize 3D points and camera parameters via bundle adjustment. Recently, deep visual SLAM and SfM systems have emerged that adopt deep neural networks to estimate pairwise or long-term correspondences. While demonstrating accurate tracking, these methods typically assume predominantly static scenes and sufficient camera baselines between frames, degrading with scene dynamics or limited parallax.
SLAM 與 SfM 用於從影片序列或非結構化影像集合中估計相機參數與三維場景結構。傳統方法透過特徵匹配或光度對齊估計二維對應關係,再透過光束法平差最佳化三維點與相機參數。近年來,深度視覺 SLAM 與 SfM 系統興起,採用深度神經網路估計成對或長程對應關係。雖然展現了精確的追蹤能力,但這些方法通常假設場景以靜態為主且影格間具有充足的相機基線,在面對場景動態或有限視差時性能會顯著下降。
段落功能 文獻回顧——建立 SLAM/SfM 的技術脈絡,從傳統方法到深度學習方法。
邏輯角色 延續緒論的批判脈絡,以更技術性的語言重申深度視覺 SLAM 的「靜態假設」弱點,為 MegaSaM 的動態擴展提供學術依據。
論證技巧 / 潛在漏洞 以「typically assume」的措辭精準地批判既有方法的預設條件,而非否定其技術價值。此策略讓 MegaSaM 定位為「擴展」而非「取代」,避免過度激進的學術宣稱。
Several recent works address dynamic scene challenges: Robust-CVD and CasualSAM jointly estimate camera parameters and dense depth maps from dynamic videos by optimizing spatially varying splines or fine-tuning monocular depth networks. Particle-SfM and LEAP-VO infer moving object masks from long-range trajectories, downweighting dynamic feature contributions. The concurrent work MonST3R adopts 3D point cloud representations and localizes cameras via alignment optimization. In the domain of monocular depth, recent models like DepthAnything show strong generalization on in-the-wild single images, but single-image models produce temporally inconsistent depth from videos.
近期多項研究致力於解決動態場景的挑戰:Robust-CVDCasualSAM 透過最佳化空間變化樣條或微調單目深度網路,從動態影片中聯合估計相機參數與稠密深度圖。Particle-SfMLEAP-VO 從長程軌跡推斷移動物件遮罩,降低動態特徵的貢獻權重。同期工作 MonST3R 採用三維點雲表示,透過對齊最佳化定位相機。在單目深度領域,近期模型如 DepthAnything 在野外單張影像上展現強大的泛化能力,但單張影像模型從影片中產出的深度缺乏時間一致性
段落功能 文獻定位——將 MegaSaM 放置在動態 SfM 與單目深度的交叉脈絡中。
邏輯角色 此段建立了關鍵的學術譜系,涵蓋三條平行路線(最佳化式、遮罩式、學習式),並指出各自的缺陷,為 MegaSaM 整合多條路線的設計提供合理性。
論證技巧 / 潛在漏洞 對同期工作 MonST3R 的提及顯示作者的學術誠信,但僅一句帶過而未深入比較。關於 DepthAnything 的「時間不一致」批判為 MegaSaM 的一致性深度最佳化模組預埋了伏筆。
Several works employ time-varying radiance field representations for dynamic scene reconstruction and novel view synthesis. These methods typically represent scenes as 4D spatiotemporal radiance fields that capture both geometry and appearance changes over time. The authors note that their work is "orthogonal to most of these techniques since most radiance field reconstruction methods require camera parameters or video depth maps as inputs." MegaSaM can thus serve as a preprocessing step that provides the camera poses and depths needed by downstream reconstruction methods.
多項研究採用時變輻射場表示進行動態場景重建與新視角合成。這些方法通常將場景表示為四維時空輻射場,捕捉幾何與外觀隨時間的變化。作者指出,本文工作與大多數此類技術互為正交,因為大多數輻射場重建方法需要以相機參數或影片深度圖作為輸入。因此,MegaSaM 可作為預處理步驟,為下游重建方法提供所需的相機姿態與深度
段落功能 劃定範疇——將 MegaSaM 與動態輻射場重建區隔開來。
邏輯角色 此段以「正交」的定位策略避免與輻射場方法的直接競爭,反而將自身重新定義為這些方法的「上游供應者」,擴大了潛在影響力。
論證技巧 / 潛在漏洞 「正交」的定位非常巧妙——既避免了與熱門的動態 NeRF 領域正面比較的壓力,又暗示 MegaSaM 具有廣泛的應用價值。然而,若下游方法已內建相機估計功能,則此「前處理」定位的必要性可能被削弱。

3. MegaSaM — 方法

3.1 Deep Visual SLAM Formulation — 深度視覺 SLAM 公式化

Given an unconstrained video sequence, the goal is to estimate camera poses, focal length, and dense depth maps without constraints on camera or object motions. Deep visual SLAM systems maintain two state variables: per-frame low-resolution disparity maps and camera poses. These are iteratively updated through a differentiable bundle adjustment (DBA) layer. Given two video frames as input, the system predicts a 2D correspondence field and confidence through convolutional gated recurrent units iteratively. The rigid-motion correspondence field derives from camera ego-motion and disparity through multi-view constraints.
給定一段不受約束的影片序列,目標是在不限制相機或物件運動的前提下,估計相機姿態、焦距與稠密深度圖。深度視覺 SLAM 系統維護兩組狀態變數:逐幀低解析度視差圖與相機姿態。這些透過可微分光束法平差(DBA)層進行迭代更新。給定兩個影格作為輸入,系統透過摺積門控循環單元迭代地預測二維對應場與信心度。剛體運動對應場則由相機自運動與視差透過多視圖約束推導而得。
段落功能 方法基礎——定義深度視覺 SLAM 的核心數學框架。
邏輯角色 這是整個方法的數學基礎,建立在 DROID-SLAM 的架構之上。可微分光束法平差是整個系統的核心引擎,後續所有創新均以此為基礎進行擴展。
論證技巧 / 潛在漏洞 選擇以 DROID-SLAM 為基礎框架是務實的策略——借助已驗證的架構,減少從零建構的風險。但這也意味著系統繼承了 DROID-SLAM 的固有限制,如對記憶體的需求與特徵提取器的表達能力。
Since DROID-SLAM assumes known focal length, MegaSaM extends the formulation to jointly optimize camera poses, focal length, and disparity by minimizing weighted reprojection cost between network-predicted flows and rigid-motion flows. The Levenberg-Marquardt algorithm performs optimization in a fully differentiable manner. The approximate Hessian separates into block matrix form, with the disparity Hessian being diagonal, enabling efficient computation via the Schur complement trick. The flow and uncertainty predictions are trained end-to-end from a collection of synthetic video sequences of static scenes, with a combined loss of camera and flow supervision.
由於 DROID-SLAM 假設焦距已知,MegaSaM 將公式化擴展為聯合最佳化相機姿態、焦距與視差,透過最小化網路預測光流與剛體運動光流之間的加權重投影成本Levenberg-Marquardt 演算法以完全可微分的方式執行最佳化。近似海森矩陣分離為區塊矩陣形式,其中視差海森矩陣為對角矩陣,透過 Schur 補元技巧實現高效計算。光流與不確定性預測從合成靜態場景影片集合中端到端訓練,損失函數結合相機與光流監督。
段落功能 技術延伸——說明如何從 DROID-SLAM 擴展至聯合焦距估計。
邏輯角色 此段解釋了兩個關鍵的技術細節:(1)將焦距納入最佳化變數的必要性——日常影片焦距未知;(2)Schur 補元的計算效率保障——確保擴展後的系統仍具即時性。
論證技巧 / 潛在漏洞 以 Schur 補元的數學性質確保計算效率,展現了紮實的最佳化理論功底。但端到端訓練僅使用合成靜態場景,可能導致在真實動態場景上的域差距——這正是下一節要解決的問題。

3.2 Scaling to In-the-Wild Dynamic Videos — 擴展至野外動態影片

Deep Visual SLAM performs well for static scenes with substantial camera translation but its performance degrades when operating on videos of dynamic content, or videos with limited parallax. To address this, MegaSaM introduces motion probability prediction: an additional network predicts per-pixel object movement probability maps conditioned on frames and neighboring keyframes. These maps are supervised using multi-frame information to predict dynamic content pixels. A two-stage training scheme trains models on mixed static and dynamic videos: first, ego-motion pretraining on static synthetic data; second, dynamic fine-tuning that freezes the main network and fine-tunes only the motion module on synthetic dynamic videos, decorrelating scene dynamics learning from 2D correspondence learning.
深度視覺 SLAM 在具有充足相機平移的靜態場景下表現良好,但在處理動態內容或視差有限的影片時性能會顯著下降。為此,MegaSaM 引入運動機率預測:一個額外的網路預測以影格與鄰近關鍵幀為條件的逐像素物件運動機率圖。這些機率圖以多幀資訊監督,用以預測動態內容像素兩階段訓練方案在混合靜態與動態影片上訓練模型:首先在合成靜態資料上進行自運動預訓練;其次凍結主網路,僅在合成動態影片上微調運動模組,將場景動態學習與二維對應關係學習解耦。
段落功能 核心創新之一——描述運動機率預測與兩階段訓練策略。
邏輯角色 此段直接回應「動態場景」挑戰。兩階段訓練的設計理念是「關注點分離」:先學好靜態場景的光流,再單獨學習辨識動態像素。這種模組化思維降低了訓練不穩定性的風險。
論證技巧 / 潛在漏洞 「凍結主網路」的設計選擇非常務實——避免在動態場景微調時破壞已學好的光流預測能力。但這也意味著運動模組的能力受限於固定特徵的表達範圍,可能在極端動態場景中不足。
While DROID-SLAM initializes disparity to constant values, this fails on videos with limited baselines and complex dynamics. MegaSaM instead initializes disparity with monocular depth priors, using DepthAnything with global scale and shift from ground truth during training. During inference, per-frame disparity maps initialize with metric-aligned monocular disparity combining DepthAnything relative disparity with UniDepth metric estimates through affine alignment. Training further initializes the first two camera poses to ground truth and perturbs focal length estimates by 25% to promote robustness.
DROID-SLAM 將視差初始化為常數值,但這在基線有限且動態複雜的影片上會失敗。MegaSaM 改為以單目深度先驗初始化視差,訓練時使用 DepthAnything 並以真實值的全域尺度與偏移對齊。推論時,逐幀視差圖以度量對齊的單目視差初始化,結合 DepthAnything 的相對視差與 UniDepth 的度量估計,透過仿射對齊整合。訓練時進一步將前兩個相機姿態初始化為真實值,並對焦距估計施加 25% 的擾動以增強穩健性。
段落功能 工程改進——以單目深度先驗取代常數初始化。
邏輯角色 回應基線不足的問題:當相機運動產生的幾何約束薄弱時,單目深度先驗提供額外的場景結構資訊。這是將「基礎模型」知識注入幾何最佳化框架的典範做法。
論證技巧 / 潛在漏洞 結合 DepthAnything(相對深度)與 UniDepth(度量深度)的雙重先驗策略頗具巧思,但依賴外部模型的品質。若這些先驗模型在特定場景失準,初始化可能反而產生誤導。25% 的焦距擾動是增強穩健性的有效手段。
The key innovation is uncertainty-aware global bundle adjustment. The critical question is whether to apply mono-depth regularization during global bundle adjustment: sufficient camera baseline makes regularization unnecessary, while rotational cameras with limited baseline require it to avoid degenerate solutions. MegaSaM explores the approximate Hessian matrix, using Laplace approximations to estimate posterior covariance through the inverse Hessian. Since full inversion is expensive, diagonal Hessian approximation estimates epistemic uncertainty. High uncertainty indicates unobservable parameters: rotational-dominant videos show much higher disparity uncertainty than forward-moving cameras. This uncertainty quantification measures observability, determining where mono-depth regularization applies and when focal length optimization should be disabled.
關鍵創新是不確定性感知的全域光束法平差。核心問題在於:全域光束法平差期間是否應施加單目深度正則化。充足的相機基線使正則化不必要,而以旋轉為主且基線有限的相機則需要正則化以避免退化解。MegaSaM 探索近似海森矩陣,利用拉普拉斯近似透過逆海森矩陣估計後驗共變異數。由於完整的矩陣求逆計算成本高昂,以對角海森矩陣近似估計認識不確定性高不確定性指示不可觀測的參數:以旋轉為主的影片顯示出遠高於前向移動相機的視差不確定性。此不確定性量化度量可觀測性,決定在何處施加單目深度正則化,以及何時應停用焦距最佳化。
段落功能 核心理論創新——提出基於可觀測性分析的自適應正則化策略。
邏輯角色 此段是全文論證的理論支柱。不確定性感知的光束法平差將「何時需要先驗」從人工調參轉變為數學驅動的自動決策,在方法論上具有深刻的洞見。
論證技巧 / 潛在漏洞 以海森矩陣的對角近似來估計可觀測性,在數學上優雅且計算上可行。但對角近似忽略了參數間的交互作用(非對角項),在高度耦合的參數空間中可能低估不確定性。此外,閾值的設定仍需經驗調整。

3.3 Consistent Depth Optimization — 一致性深度最佳化

Optionally, obtaining more accurate and consistent higher-resolution video depth requires additional first-order optimization on video depths with per-frame aleatoric uncertainty maps. The objective comprises three cost functions: pairwise 2D flow reprojection loss for geometric consistency, temporal depth consistency loss encouraging coherence via optical flow, and scale-invariant mono-depth prior loss preventing excessive deviation from initial estimates. Key differences from CasualSAM include: performing direct optimization instead of costly mono-depth fine-tuning, fixing camera parameters rather than jointly optimizing cameras and depths, and adopting surface normal consistency and multi-scale depth gradient matching losses.
為取得更精確且一致的高解析度影片深度,可選擇性地對影片深度進行額外的一階最佳化,搭配逐幀的偶然不確定性圖。目標函數包含三項成本函數:成對二維光流重投影損失(幾何一致性)、時間深度一致性損失(透過光流促進時間連貫性),以及尺度不變的單目深度先驗損失(防止過度偏離初始估計)。與 CasualSAM 的關鍵差異包括:執行直接最佳化而非耗費資源的單目深度微調固定相機參數而非聯合最佳化相機與深度;以及採用表面法向量一致性與多尺度深度梯度匹配損失
段落功能 方法延伸——描述可選的高解析度深度精煉模組。
邏輯角色 此段補充了完整的管線:前兩節處理相機與低解析度深度,此節將深度提升至高解析度。以「可選」定位此模組,讓系統在速度與品質間保有彈性。
論證技巧 / 潛在漏洞 與 CasualSAM 的三點差異化非常有效:「直接最佳化 vs 網路微調」在效率上有本質優勢。固定相機參數的決策基於前段已建立的精確相機估計——形成了邏輯上的自洽鏈。但此策略假設前階段的相機估計足夠準確,否則錯誤會傳播至深度。
The depth prior loss comprises three components: scale-invariant depth loss computing mean square error between optimized and initial log-disparities; multi-scale gradient matching comparing log-disparity gradients to preserve local depth structures; and surface normal loss encouraging normal consistency derived from depth maps. The optimization conducts a 100-step warm-up phase optimizing only uncertainty maps, then jointly optimizes disparity and uncertainty maps for 400 steps. This separation enables the system to first calibrate per-pixel reliability estimates before using them to guide depth refinement.
深度先驗損失包含三個組成部分:尺度不變深度損失(計算最佳化後與初始對數視差之間的均方誤差);多尺度梯度匹配(比較對數視差梯度以保留局部深度結構);以及表面法向量損失(促進從深度圖推導的法向量一致性)。最佳化過程先進行 100 步暖身階段僅最佳化不確定性圖,隨後聯合最佳化視差與不確定性圖 400 步。此分離設計使系統先校準逐像素的可靠度估計,再利用其引導深度精煉。
段落功能 實作細節——說明深度最佳化的具體損失函數與訓練排程。
邏輯角色 提供可複製性所需的技術細節。暖身階段的設計反映了「先估計不確定性,再利用它」的因果邏輯,避免了雞生蛋、蛋生雞的循環問題。
論證技巧 / 潛在漏洞 三項損失的設計涵蓋了全域尺度(尺度不變損失)、局部結構(梯度匹配)與幾何品質(法向量)三個層次,體現了系統性的思維。100+400 步的排程選擇未提供消融依據,可能存在超參數敏感性。

4. Experiments — 實驗

Experiments evaluate MegaSaM on three benchmarks. MPI Sintel includes 18 animated sequences with complex object motions and camera paths, each containing 20-50 images. DyCheck contains real-world hand-held camera videos of dynamic scenes with 180-500 frames, using Shape of Motion's refined camera parameters and sensor depths as ground truth. An In-the-Wild benchmark includes 12 videos with long duration (100-600 frames), uncontrolled camera paths, and complex scene motions. Standard error metrics evaluate camera pose estimation: Absolute Translation Error (ATE), Relative Translation Error (RTE), and Relative Rotation Error (RRE). Video depth metrics include Absolute Relative Error, log RMSE, and Delta accuracy.
實驗在三個基準上評估 MegaSaM。MPI Sintel 包含 18 個具有複雜物件運動與相機路徑的動畫序列,每個序列含 20-50 張影像。DyCheck 包含真實世界手持相機拍攝的動態場景影片,含 180-500 幀,以 Shape of Motion 精煉的相機參數與感測器深度作為真實值。野外基準包含 12 段長時間(100-600 幀)、不受控相機路徑與複雜場景運動的影片。相機姿態估計採用標準誤差指標:絕對平移誤差(ATE)相對平移誤差(RTE)相對旋轉誤差(RRE)。影片深度指標包含絕對相對誤差對數均方根誤差Delta 準確度
段落功能 實驗設定——系統性地介紹評估基準與指標。
邏輯角色 為後續定量結果建立可信的評估框架。三個基準從合成到真實、從受控到野外形成遞進,確保結論的泛化性。
論證技巧 / 潛在漏洞 基準的選擇涵蓋了合成(Sintel)、受控真實(DyCheck)與野外(In-the-Wild)三個層次,評估設計嚴謹。但野外基準以 COLMAP 在靜態部分的結果作為真實值,本身可能存在誤差,影響評估的絕對準確性。
Results on three benchmarks demonstrate significant improvements. MegaSaM achieves best camera tracking accuracy on all error metrics in both calibrated and uncalibrated settings while maintaining competitive runtime. On Sintel, MegaSaM achieves ATE of 0.018 (calibrated) and 0.023 (uncalibrated); on DyCheck, ATE of 0.020 in both settings; and on in-the-wild footage, ATE of 0.004 in both settings. Depth estimates also significantly outperform baselines: Sintel abs-rel of 0.21 versus CasualSAM's 0.31 and DyCheck abs-rel of 0.11 versus CasualSAM's 0.21. The system outperforms concurrent work MonST3R in both robustness and accuracy.
三個基準上的結果展示了顯著的改進。MegaSaM 在校準與未校準兩種設定下,所有誤差指標上均達到最佳的相機追蹤精度,同時維持具競爭力的執行速度。在 Sintel 上,ATE 為 0.018(校準)與 0.023(未校準);在 DyCheck 上,兩種設定均為 0.020;在野外影片上,兩種設定均為 0.004。深度估計同樣顯著超越基線方法:Sintel 絕對相對誤差為 0.21(對比 CasualSAM 的 0.31)DyCheck 為 0.11(對比 CasualSAM 的 0.21)。系統在穩健性與精度上均優於同期工作 MonST3R
段落功能 核心實證——以具體數據展示 MegaSaM 的全面優勢。
邏輯角色 此段是整篇論文的實證基石。在相機追蹤與深度估計兩個維度、三個資料集上全面超越,構成了強有力的論證支撐。
論證技巧 / 潛在漏洞 數據呈現清晰且對比鮮明——CasualSAM 的深度誤差幾乎是 MegaSaM 的兩倍。但作者未報告標準差或統計顯著性檢驗,單一數值的比較可能掩蓋了逐序列的性能變異。
Ablation studies validate each design choice. Key findings: mono-depth initialization significantly improves results over constant initialization; the two-stage training scheme proves critical for stable convergence; object movement map prediction substantially enhances performance on dynamic scenes; uncertainty-aware bundle adjustment prevents degenerate solutions on rotational-dominant videos; fixing camera poses during depth optimization outperforms joint refinement; and the new depth prior losses (surface normal and gradient matching) further improve quality. Visual comparisons show MegaSaM's estimated camera trajectories closest to ground truth, with more accurate, detailed, and temporally consistent depth maps.
消融研究驗證了各項設計選擇。關鍵發現:單目深度初始化相比常數初始化顯著改善結果兩階段訓練方案對穩定收斂至關重要物件運動圖預測大幅提升動態場景性能不確定性感知的光束法平差在以旋轉為主的影片上防止退化解深度最佳化時固定相機參數優於聯合精煉新的深度先驗損失(表面法向量與梯度匹配)進一步提升品質。視覺比較顯示 MegaSaM 估計的相機軌跡最接近真實值,深度圖更精確、細緻且時間一致。
段落功能 設計驗證——逐一確認各組件的必要性。
邏輯角色 消融研究回應了「為何需要這麼多組件」的潛在質疑,每個組件的移除都導致性能下降,證明了系統設計的精煉性而非冗餘性。
論證技巧 / 潛在漏洞 消融研究的系統性令人信服——六項消融覆蓋了初始化、訓練策略、動態處理、正則化策略與損失函數。但各消融實驗是否獨立進行(單因素分析)或存在交互效應,文中未明確說明,可能遺漏組件間的協同或衝突關係。

5. Discussion and Conclusion — 討論與結論

The approach has several limitations. It fails in "extremely challenging scenarios": when moving objects dominate entire images or when there is nothing reliable to track. The system cannot handle varying focal lengths or strong radial distortion within a single video. Additionally, scenarios where camera motion and object motion are colinear — such as selfie videos — remain problematic. Incorporating "better priors from current vision foundation models" represents a promising direction for future work.
本方法存在若干局限。在「極具挑戰性的情境」下會失敗:當移動物件佔據整張影像,或場景中沒有可靠的追蹤目標時。系統無法處理單段影片內的變焦或強烈徑向畸變。此外,相機運動與物件運動共線的場景(如自拍影片)仍然具有挑戰性。整合來自當前視覺基礎模型的更強先驗,是未來研究的有前景方向。
段落功能 誠實披露——列舉方法的已知失敗模式。
邏輯角色 局限性討論在學術論文中扮演「預防性反駁」的角色:主動承認弱點,避免審稿人或讀者提出更嚴厲的批評。
論證技巧 / 潛在漏洞 對失敗模式的坦誠列舉增強了論文的可信度。「物件佔據整張影像」的限制揭示了系統對靜態背景的隱含依賴——本質上系統仍需要部分靜態區域作為自運動估計的錨點。
MegaSaM produces "accurate camera parameters and consistent depths from casual monocular videos of dynamic scenes," efficiently scaling "to in-the-wild footage of varying time duration, with unconstrained camera paths and complex scene dynamics." The work demonstrates that extending deep visual SLAM frameworks through careful modifications — including motion probability prediction, monocular depth integration, and uncertainty-aware bundle adjustment — achieves strong generalization and significantly outperforms recent state-of-the-art methods across diverse benchmarks. The system can serve as a reliable preprocessing module for downstream tasks such as dynamic scene reconstruction and novel view synthesis.
MegaSaM 從日常拍攝的動態場景單目影片中產出精確的相機參數與一致的深度,能高效擴展至具有不同時間長度、不受約束相機路徑與複雜場景動態的野外影像。本研究證明,透過審慎的修改擴展深度視覺 SLAM 框架——包括運動機率預測、單目深度整合與不確定性感知的光束法平差——能夠實現強大的泛化能力,並在多樣化的基準上顯著超越近期最先進的方法。該系統可作為動態場景重建與新視角合成等下游任務的可靠預處理模組。
段落功能 總結全文——重申核心貢獻並展望應用前景。
邏輯角色 結論段呼應摘要的結構,從具體貢獻回到更廣闊的影響:MegaSaM 不僅是一個獨立系統,更是動態場景理解管線中的關鍵基礎設施。形成完整的論證閉環。
論證技巧 / 潛在漏洞 以「careful modifications」收束全文,與緒論的起始呼應,強調本文的核心哲學是「精煉改良」而非「推倒重來」。此定位既謙遜又有力——暗示強大的基礎框架加上精準的改進即可帶來質的飛躍。未充分討論的是系統對外部模型(DepthAnything、UniDepth)的依賴,以及這些模型演進時系統性能的變化。

論證結構總覽

問題
日常動態影片的
SfM/SLAM 失效
論點
深度 SLAM 框架經
審慎修改可擴展
證據
三大基準全面超越
現有最先進方法
反駁
不確定性感知 BA
自適應處理退化
結論
可靠的動態場景
預處理基礎設施

作者核心主張(一句話)

透過將運動機率預測、單目深度先驗與不確定性感知光束法平差整合至深度視覺 SLAM 框架中,MegaSaM 能從日常拍攝的動態場景單目影片中,精確、快速且穩健地估計相機參數與一致的深度圖。

論證最強處

不確定性感知的自適應正則化:利用海森矩陣的對角近似度量參數可觀測性,自動決定何時施加單目深度正則化與何時停用焦距最佳化。此設計將傳統上依賴人工調參的決策轉化為數學驅動的自動判斷,在理論優雅性與工程實用性之間取得了卓越的平衡。三個基準上的全面消融研究進一步驗證了每個組件的必要性。

論證最弱處

對外部先驗模型的隱性依賴:系統的穩健性建立在 DepthAnything 與 UniDepth 等外部模型的品質之上,但未充分分析當這些先驗模型在特定場景失準時的退化行為。此外,「物件佔據整張影像」的失敗模式揭示了系統對靜態背景的本質依賴,而此類場景在真實日常影片中並不罕見(如近距離寵物追蹤、運動攝影等)。

Thesis 核心論點
Concept 關鍵概念
Evidence 實證證據
Rebuttal 讓步反駁
Method 方法論