摘要 1. 緒論 2. 相關工作 3. 方法 3.1 最小問題 3.2 同倫延拓 3.3 學習策略 4. 實驗 5. 結論 論證總覽

Abstract — 摘要

We present a learning-based approach to solving hard minimal problems in geometric computer vision. Minimal problems arise as the core algorithmic engines in RANSAC-based robust estimation pipelines, where a polynomial system must be solved for each hypothesized minimal sample. Existing solvers either enumerate all solutions (including many spurious complex ones) or rely on problem-specific algebraic tricks. We propose an alternative: combine homotopy continuation with a learned classifier that selects a promising start problem-solution pair (anchor) from a precomputed set, then track a single real solution path to the target problem. Our approach achieves solving times under 70 microseconds for the challenging three-camera four-point (Scranton) problem, demonstrating speedups exceeding 10x compared to prior approximation methods.
本文提出一種基於學習的方法來求解幾何電腦視覺中的困難最小問題。最小問題是 RANSAC 穩健估計管線中的核心演算法引擎,每個假設的最小樣本都需要求解一組多項式系統現有的求解器要麼枚舉所有解(包含大量無用的複數解),要麼仰賴針對特定問題的代數技巧我們提出了另一種替代方案:結合同倫延拓與學習式分類器,從預先計算的集合中選取有前景的起始問題-解對(錨點),然後追蹤單一實數解路徑至目標問題我們的方法在具挑戰性的三相機四點(Scranton)問題上達到低於 70 微秒的求解時間,相較於先前的近似方法展現超過 10 倍的加速
段落功能 全文總覽——以遞進方式從「最小問題」的定義,到現有方法的不足,最終引出「學習+同倫延拓」的新框架。
邏輯角色 摘要承擔「問題定義、方法預告與成果數據」三重功能:先界定最小問題在 RANSAC 中的角色,再以「先選後解」的策略翻轉傳統「先解後選」的範式,最後以具體數據(70 微秒、10 倍加速)建立可信度。
論證技巧 / 潛在漏洞 將傳統方法歸類為「枚舉所有解」或「仰賴特定技巧」的二分法,巧妙地為第三條路線創造空間。但「10 倍加速」的基準是近似方法而非精確求解器,讀者需留意此比較的參照對象。

1. Introduction — 緒論

Minimal problems are fundamental building blocks of modern 3D reconstruction and visual localization pipelines. In the RANSAC framework, a minimal sample of correspondences is drawn, a polynomial system encoding geometric constraints is solved, and the resulting hypothesis is scored against all data. This inner loop is executed thousands to millions of times, making the speed of the minimal solver a critical bottleneck. For well-studied problems such as the five-point relative pose problem, highly optimized solvers exist. However, many important problems — particularly those involving radial distortion, multi-camera systems, or partially calibrated setups — yield polynomial systems that are orders of magnitude harder, with hundreds of solutions.
最小問題是現代三維重建視覺定位管線的基礎構建區塊。在 RANSAC 框架中,先抽取對應點的最小樣本,求解編碼幾何約束的多項式系統,再以所有資料對產生的假設進行評分。此內層迴圈需要執行數千到數百萬次使得最小求解器的速度成為關鍵瓶頸。對於已被充分研究的問題(如五點相對姿態問題),已有高度最佳化的求解器。然而,許多重要問題——特別是涉及徑向畸變、多相機系統或部分校正設定的問題——會產生難度高出數個數量級的多項式系統,解的數量可達數百個
段落功能 建立研究場域——闡明最小問題在 RANSAC 管線中的核心地位與計算瓶頸。
邏輯角色 論證鏈的起點:從 RANSAC 的廣泛使用切入,建立「速度是關鍵」的前提,再以「困難問題有數百個解」揭示矛盾,為後續的新方法奠定必要性基礎。
論證技巧 / 潛在漏洞 以「數千到數百萬次」的量化描述強調速度的重要性,具有很強的說服力。但作者隱含假設 RANSAC 仍是最佳的穩健估計範式——若有更高效的非 RANSAC 架構,則瓶頸論述的基礎會被動搖。
The standard approach to solving minimal problems is the action matrix method from computational algebraic geometry. Given a polynomial system, one constructs an elimination template that reduces the problem to computing eigenvalues of a matrix. While effective, these templates grow rapidly: for the Scranton problem (four points in three calibrated cameras), the system has 272 solutions, leading to extremely large elimination templates and slow solvers. An alternative is homotopy continuation (HC), which numerically tracks solution paths from a known start system to the target system. Classical HC tracks all solution paths (both real and complex), which is wasteful when only real solutions are needed.
求解最小問題的標準方法是源自計算代數幾何作用矩陣法。給定一組多項式系統,建構一個消去模板將問題化約為計算矩陣的特徵值。此方法雖然有效,但模板規模增長迅速:對於 Scranton 問題(三台校正相機中的四個點),系統有 272 個解,導致極大的消去模板與緩慢的求解器。另一種替代方案是同倫延拓法透過數值追蹤從已知起始系統到目標系統的解路徑。然而,經典的同倫延拓法追蹤所有解路徑(包含實數與複數),當僅需實數解時極為浪費
段落功能 批判既有方法——系統性指出作用矩陣法與傳統同倫延拓法的瓶頸。
邏輯角色 「問題-解決方案」論證中的問題深化:作用矩陣法在大規模問題上的模板爆炸,與經典同倫延拓法追蹤冗餘複數路徑的浪費,共同收窄至本文要解決的精確缺口——如何僅追蹤有用的實數路徑。
論證技巧 / 潛在漏洞 以 272 個解的具體數字量化困難度,使問題可感知。將兩種方法分別標記不同類型的缺陷(規模問題 vs. 效率問題),暗示需要一種全新的混合策略。但作者未提及近年來自動生成求解器(如 GALAHAD)在此方向的進展。
We propose a "Pick & Solve" paradigm that reverses the traditional "Solve & Pick" approach. Instead of computing all solutions and then selecting the geometrically valid one, we first use a learned MLP classifier to predict which precomputed anchor (start problem-solution pair) is most likely to lead to the correct solution, and then track only that single real homotopy path. The anchors are constructed offline via a greedy dominating set algorithm on a graph of problem-solution pairs. At runtime, the classifier requires only approximately 8 microseconds, and the subsequent homotopy tracking adds a few additional microseconds, yielding total solving times that are orders of magnitude faster than existing approaches for hard problems.
我們提出「先選後解」的範式,翻轉傳統「先解後選」的方法不再計算所有解然後選擇幾何上有效的那個,而是先以學習式 MLP 分類器預測哪個預計算的錨點(起始問題-解對)最有可能導向正確解,然後僅追蹤該單一實數同倫路徑。錨點透過離線的貪婪支配集演算法在問題-解對的圖上建構。在執行時,分類器僅需約 8 微秒,後續的同倫追蹤再加上數微秒使得總求解時間相比現有困難問題的方法快上數個數量級
段落功能 提出核心創新——完整概述「先選後解」框架及其組成要素。
邏輯角色 承接上段的問題陳述,此段扮演「轉折」角色:「先選後解」直接回應「追蹤所有路徑的浪費」;MLP 分類器的 8 微秒回應「速度瓶頸」;貪婪支配集回應「如何選擇起始點」。每個設計決策都精確對應一個先前陳述的問題。
論證技巧 / 潛在漏洞 「Pick & Solve」vs.「Solve & Pick」的命名對比是出色的修辭設計,使讀者立即掌握範式轉移的本質。但此策略的前提是分類器能高精度地選中正確錨點——若分類器預測失敗,則該次 RANSAC 迭代浪費,需額外迭代補償。
Minimal solvers have been a central topic in geometric computer vision for decades. The five-point algorithm by Nister provides an efficient solution to the relative pose problem using action matrix techniques. Subsequent work by Kukelova, Bujnak, and Pajdla introduced automatic generator frameworks that systematically produce Groebner basis solvers for a wide range of minimal problems. These methods work well when the number of solutions is moderate (up to a few tens), but become impractical as the solution count grows into the hundreds, due to the cubic scaling of the eigenvalue computation in the template size.
最小求解器數十年來一直是幾何電腦視覺的核心課題。Nister 的五點演算法利用作用矩陣技術相對姿態問題提供高效解法。Kukelova、Bujnak 與 Pajdla 後續引入了自動生成框架,系統性地為廣泛的最小問題產生 Groebner 基求解器這些方法在解的數量為中等規模(至多數十個)時運作良好,但當解的數量增長至數百個時便變得不切實際,原因是特徵值計算在模板規模上的三次方增長
段落功能 文獻回顧——概述代數幾何求解器的發展脈絡與規模瓶頸。
邏輯角色 建立學術譜系:Nister 五點法 -> 自動生成框架 -> 規模瓶頸,展現代數方法的演進極限,為同倫延拓的引入鋪設動機。
論證技巧 / 潛在漏洞 以「三次方增長」的漸進複雜度分析指出根本性限制,而非僅列舉經驗缺點。但自動生成框架仍在持續改進(如利用稀疏性),作者可能低估了代數方法的進步空間。
Homotopy continuation is a numerical method for solving polynomial systems by deforming a start system with known solutions into the target system. Classical approaches, implemented in software such as Bertini, PHCpack, and HomotopyContinuation.jl, typically use total-degree start systems and track all paths in complex arithmetic. Recent work by Duff, Leykin, and others has explored monodromy-based methods for constructing more efficient start systems. The key observation motivating our work is that for real-world RANSAC applications, only real solutions matter — yet classical HC wastes enormous computation tracking complex paths that will never yield real solutions.
同倫延拓是一種數值方法,透過將具有已知解的起始系統變形為目標系統來求解多項式系統。經典方法(如 BertiniPHCpackHomotopyContinuation.jl 等軟體所實作的)通常使用全次數起始系統,並在複數算術下追蹤所有路徑。Duff、Leykin 等人近期的研究探索了基於單值性的方法以建構更高效的起始系統。驅動本研究的關鍵觀察在於:對於真實世界的 RANSAC 應用,只有實數解才重要——但經典的同倫延拓法浪費大量計算追蹤永遠不會產生實數解的複數路徑。
段落功能 文獻定位——梳理同倫延拓法的發展,並指出其在視覺應用中的核心浪費。
邏輯角色 此段建立了從純數學工具到視覺應用的橋樑:同倫延拓本身是成熟的數值方法,但其「追蹤所有路徑」的設計哲學與 RANSAC「只需一個實數解」的需求存在根本錯配。這個觀察是全文方法的理論基礎。
論證技巧 / 潛在漏洞 以「浪費」一詞精準描述經典 HC 在視覺應用中的效率問題。作者巧妙地將多個數學軟體列舉出來,暗示此問題是該領域的普遍現象而非個案。然而,部分近期的 HC 實作已支援實數路徑追蹤,此處的批評可能略顯過時。
The intersection of machine learning and geometric vision has grown rapidly, with learned feature matching, learned pose estimation, and learned outlier rejection achieving strong results. However, most learning-based approaches replace the geometric solver entirely with a neural network, sacrificing the mathematical guarantees of algebraic methods. Our approach is fundamentally different: we use learning only to guide the selection of starting points, while the actual geometric computation is performed by rigorous numerical continuation. This preserves the accuracy of classical methods while dramatically reducing computation through intelligent initialization.
機器學習與幾何視覺的交匯領域快速發展,學習式特徵匹配學習式姿態估計學習式離群值排除均取得了優異成果。然而,大多數基於學習的方法以神經網路完全取代幾何求解器,犧牲了代數方法的數學保證我們的方法從根本上不同:僅以學習引導起始點的選擇,而實際的幾何計算由嚴謹的數值延拓執行。這在透過智慧初始化大幅降低計算量的同時,保留了經典方法的精確度
段落功能 區分定位——將本文與「端到端學習」方法明確區隔,建立獨特貢獻。
邏輯角色 此段扮演防禦性角色:預防讀者將本文歸類為「又一個用神經網路取代傳統方法」的工作。透過強調「學習僅用於導引」,確立了與純學習方法的根本區別,也回應了「數學保證被犧牲」的潛在質疑。
論證技巧 / 潛在漏洞 「嚴謹的數值延拓」vs.「犧牲數學保證」的對比極具說服力。但值得注意的是,MLP 分類器的選擇仍可能出錯,而這種錯誤在 RANSAC 中意味著浪費的迭代——作者將此風險推遲到實驗章節以數據回應。

3. Method — 方法

3.1 Minimal Problems as Polynomial Systems — 最小問題的多項式系統表述

A minimal problem can be formalized as a parametric polynomial system F(p, s) = 0, where p denotes the problem parameters (derived from input data such as image correspondences) and s denotes the solution variables (e.g., camera parameters or depths). The set of all valid problem-solution pairs (p, s) forms a smooth manifold M, and the projection from M to the parameter space P is generically a finite covering map. For instance, the five-point relative pose problem involves 10 polynomial equations in 9 unknowns (after fixing one depth to normalize scale), and the generic number of complex solutions is 80 (or 160 for the relaxed formulation used here).
最小問題可形式化為一個參數化多項式系統 F(p, s) = 0,其中 p 表示問題參數(源自影像對應點等輸入資料),s 表示解變數(如相機參數或深度值)。所有有效的問題-解對 (p, s) 構成一個光滑流形 M,從 M 到參數空間 P 的投影在一般性條件下為有限覆蓋映射。舉例而言,五點相對姿態問題涉及 10 個多項式方程與 9 個未知數(固定一個深度值以正規化尺度),一般性複數解的數量為 80 個(本文使用的鬆弛表述為 160 個)
段落功能 數學基礎建設——定義問題的形式化框架與核心代數結構。
邏輯角色 這是整個方法的數學基礎。問題-解流形 M 的引入不僅是形式化的需要,更為後續同倫延拓的路徑追蹤提供了拓撲學保證——路徑在流形上的連續性確保追蹤的合法性。
論證技巧 / 潛在漏洞 以覆蓋映射的語言將最小問題與代數拓撲聯繫起來,為後續的同倫路徑存在性提供理論保障。五點問題的 80/160 解數量為讀者提供了具體的規模感知。但對於非代數幾何背景的讀者,流形與覆蓋映射的概念可能過於抽象。
We adopt a depth-based formulation of minimal problems. For N points observed in K cameras, the unknowns are the depths at which each ray intersects the corresponding 3D point. The polynomial equations arise from distance preservation constraints: the Euclidean distance between any two reconstructed 3D points must be consistent across all camera views. Specifically, for cameras k, m and points i, j, we require that the squared distance between point i and point j reconstructed from view k equals the corresponding squared distance from view m. This yields a sparse polynomial system with degree-two equations, which is particularly amenable to efficient Jacobian computation in the continuation step.
我們採用最小問題的深度式表述。對於在 K 台相機中觀測到的 N 個點,未知數為每條射線與對應三維點相交的深度值。多項式方程源自距離保持約束:任意兩個重建三維點之間的歐氏距離必須在所有相機視角之間保持一致。具體而言,對於相機 k、m 與點 i、j,我們要求從視角 k 重建的點 i 與點 j 之間的平方距離等於從視角 m 重建的對應平方距離。這產生一個具有二次方程稀疏多項式系統,特別適合在延拓步驟中進行高效的雅可比矩陣計算
段落功能 技術選擇說明——解釋為何選用深度式而非旋轉矩陣式的問題表述。
邏輯角色 此段為後續的效率分析埋下伏筆:稀疏性與二次方程使得雅可比矩陣可以封閉形式求解,這對同倫延拓的速度至關重要。深度式表述的選擇看似是技術細節,實際上直接影響最終的計算效率。
論證技巧 / 潛在漏洞 作者精心選擇了能發揮稀疏性的表述方式,這是一個關鍵的工程決策。二次方程的稀疏雅可比矩陣意味著每步延拓的線性代數運算可大幅加速。但深度式表述的鬆弛可能引入額外的偽解(160 vs. 80),需在後續討論如何處理。

3.2 Homotopy Continuation — 同倫延拓

Homotopy continuation solves the target problem by continuously deforming a known start problem into the target. Given a start pair (p0, s0) where F(p0, s0) = 0 is satisfied, we define a linear homotopy path p(t) = (1-t)p0 + tp for t in [0, 1], where p is the target problem. The solution s(t) evolves continuously along this path on the problem-solution manifold M. We track this path using a predictor-corrector scheme: a fourth-order Runge-Kutta predictor advances along the tangent direction, followed by up to three Newton refinement steps to snap back to the manifold. The step size is adaptively controlled based on the success of the Newton corrections.
同倫延拓透過將已知的起始問題連續變形為目標問題來求解。給定一個起始對 (p_0, s_0),其中 F(p_0, s_0) = 0 成立,我們定義線性同倫路徑 p(t) = (1-t)p_0 + tp,t 介於 [0, 1],其中 p 為目標問題。解 s(t) 沿著問題-解流形 M 上的路徑連續演化。我們使用預測-校正方案追蹤此路徑:四階 Runge-Kutta 預測器沿切線方向推進,接著執行至多三次牛頓修正步驟以回到流形上。步長根據牛頓校正的成功程度進行自適應控制
段落功能 核心演算法描述——闡明同倫延拓的數值追蹤機制。
邏輯角色 此段是「先選後解」框架中「解」的部分的技術核心。線性同倫的簡潔形式使路徑定義直觀,而預測-校正方案確保數值穩定性。自適應步長控制是工程上的關鍵決策,平衡精度與速度。
論證技巧 / 潛在漏洞 將複雜的數值方法拆解為「預測-校正」兩步驟的管線描述,使讀者易於理解。四階 Runge-Kutta 與牛頓法都是成熟的數值工具,為方法的穩定性提供背書。但路徑追蹤可能遭遇奇點(如分支點或轉折點),作者未明確討論這些退化情況的處理。
Two crucial implementation choices yield dramatic speedups. First, since we only need real solutions for RANSAC, we perform all arithmetic in real numbers rather than complex numbers. This eliminates the overhead of complex multiplication and provides an approximately 14x speedup over complex-arithmetic HC. Second, the depth-based sparse formulation produces Jacobian matrices with known sparsity patterns, enabling closed-form solutions in the linear algebra subroutines (rather than generic dense solvers). This sparsity exploitation yields an additional approximately 5x speedup. Combined, these two optimizations achieve roughly 70x acceleration compared to naive complex-arithmetic dense HC, making real-time operation feasible.
兩個關鍵的實作選擇帶來了顯著的加速。首先,由於 RANSAC 僅需實數解,我們以實數而非複數執行所有算術運算。這消除了複數乘法的額外開銷,提供約 14 倍的加速。其次,深度式稀疏表述產生具有已知稀疏模式的雅可比矩陣,使線性代數子程式可使用封閉形式求解(而非通用的密集求解器)。此稀疏性的利用帶來額外約 5 倍的加速。兩項最佳化結合達到約 70 倍的加速,相較於樸素的複數算術密集同倫延拓,使即時運算成為可行。
段落功能 效率分析——量化兩項關鍵最佳化帶來的加速效果。
邏輯角色 此段是方法可行性的關鍵支撐:14x(實數算術)乘以 5x(稀疏性)約等於 70x 的加速,是將理論方法轉化為實用工具的橋樑。每項加速都有明確的來源,使總加速倍率不是黑箱數字。
論證技巧 / 潛在漏洞 加速因子的乘法分解使讀者能獨立驗證每項貢獻。但 14x 與 5x 是近似值,實際加速可能因問題規模和硬體而異。此外,實數算術意味著無法追蹤可能經由複數空間繞行後回到實數的路徑,這可能降低成功率。

3.3 Learning to Select Anchors — 學習式錨點選擇

The core of our learning approach is the construction and selection of anchors — precomputed problem-solution pairs that serve as starting points for homotopy continuation. We build a graph G where vertices represent problem-solution pairs from a training set and edges connect pairs that can be reached from each other via HC tracking. We then apply a greedy dominating set algorithm to select a small subset of vertices (anchors) such that most vertices in the graph are adjacent to at least one anchor. For the five-point problem with 10,000 training pairs, approximately 70 anchors suffice to cover 90% of problems. For the Scranton problem, 134 anchors achieve similar coverage.
我們學習方法的核心是錨點的建構與選擇——預計算的問題-解對,作為同倫延拓的起始點。我們建構一個圖 G,其中頂點代表訓練集中的問題-解對,邊連接可透過同倫延拓追蹤互相到達的配對。然後,我們應用貪婪支配集演算法選取一小部分頂點(錨點),使得圖中大多數頂點與至少一個錨點相鄰。對於五點問題,在 10,000 個訓練對中,約 70 個錨點即可覆蓋 90% 的問題。對於 Scranton 問題,134 個錨點達到類似的覆蓋率
段落功能 離線預處理設計——描述錨點集合的建構演算法。
邏輯角色 錨點建構是「先選後解」框架的第一個環節。貪婪支配集將「如何選擇起始點」從連續最佳化問題轉化為離散組合問題,使其在離線階段可精確求解。70 個與 134 個錨點的數量展示了問題複雜度的增長趨勢。
論證技巧 / 潛在漏洞 以圖論語言重新表述起始點選擇問題,是跨領域方法整合的出色範例。支配集問題本身是 NP-hard 的,但貪婪近似在實務中表現良好。90% 的覆蓋率意味著仍有 10% 的問題無法從任何錨點成功追蹤,這些「盲區」的特性值得深入分析。
At runtime, we need to quickly decide which anchor to use for a given target problem. We train a multi-layer perceptron (MLP) classifier with 6 hidden layers of 100 neurons each to map from normalized problem parameters to anchor scores. The classifier outputs a probability distribution over the set of anchors plus a special "TRASH" class indicating that the problem is unreachable from any anchor. Training uses approximately one million problem-solution pairs generated synthetically, with labels assigned by attempting HC from every anchor to each training problem. The MLP is trained with cross-entropy loss and SGD optimization for 80 epochs, selecting parameters that maximize validation success rate. Classification requires only approximately 8 microseconds.
在執行時,我們需要快速決定對給定目標問題使用哪個錨點。我們訓練一個多層感知器(MLP)分類器,具有 6 個隱藏層、每層 100 個神經元將正規化的問題參數映射至錨點分數。分類器輸出錨點集合的機率分布,加上一個特殊的「垃圾」類別,表示該問題無法從任何錨點到達。訓練使用約一百萬個合成生成的問題-解對,標籤透過嘗試從每個錨點進行同倫延拓至每個訓練問題而指定。MLP 以交叉熵損失與 SGD 最佳化訓練 80 個週期,選擇使驗證成功率最大化的參數。分類僅需約 8 微秒
段落功能 線上推論設計——描述 MLP 分類器的架構、訓練與推論效率。
邏輯角色 MLP 分類器是「先選後解」框架的第二個環節,負責即時錨點選擇。8 微秒的推論時間使此步驟的開銷可忽略不計,確保整體求解時間由同倫追蹤主導。「垃圾」類別的設計體現了對失敗情況的顯式建模。
論證技巧 / 潛在漏洞 選擇 MLP 而非更複雜的架構是明智的——簡單模型推論更快,且問題參數空間的維度不高,不需要過於複雜的表徵學習。一百萬個訓練樣本與 80 個週期的組合暗示問題可學習性良好。但 MLP 的泛化能力——特別是面對訓練分布之外的問題實例——需要實驗驗證。
The success of the learned classifier depends critically on input normalization. Raw problem parameters (image correspondences) exhibit high variability due to camera rotation, scene scale, and point ordering ambiguities. We apply a sequence of canonical transformations: rotating coordinate frames based on mean ray directions and extreme ray angles, swapping cameras to enforce a canonical ordering, and reordering point correspondences counterclockwise. These normalizations dramatically reduce the input variability that the classifier must handle, effectively exploiting the symmetry group of each problem to create a more compact representation. Without normalization, the classifier's success rate drops significantly.
學習式分類器的成功高度仰賴輸入正規化原始問題參數(影像對應點)因相機旋轉、場景尺度與點序列的歧義性而呈現高度變異性。我們施加一系列正則變換根據平均射線方向與極端射線角度旋轉座標系交換相機以強制正則排序、以及將點對應按逆時針方向重新排列。這些正規化大幅降低了分類器必須處理的輸入變異性,有效利用每個問題的對稱群來建立更緊湊的表示。若不進行正規化,分類器的成功率將顯著下降。
段落功能 工程細節補充——闡述使學習成功的關鍵資料前處理步驟。
邏輯角色 此段揭示了一個經常被忽略但至關重要的環節:學習方法的成功不僅取決於模型架構,更取決於輸入表示。正規化利用了問題的數學對稱性(相機交換不變性、點序列排列不變性),將幾何先驗知識嵌入前處理管線。
論證技巧 / 潛在漏洞 將對稱群的概念從抽象數學應用到具體的資料前處理,展現了理論與實務的出色結合。「無正規化則成功率顯著下降」的消融觀察強化了此設計的必要性。但正規化步驟本身增加了計算開銷,作者需確保這些開銷不會抵消學習帶來的加速。

4. Experiments — 實驗

We evaluate on two challenging minimal problems. For the five-point relative pose problem, our method achieves a success rate of 29.0% on individual test instances with an average solving time of 7.6 microseconds per instance. The effective time per successful solve is 26.1 microseconds when accounting for failed attempts. On the CVPR 2020 RANSAC benchmark, the success rate is approximately 25%, requiring roughly 4x more RANSAC iterations than the classical Nister solver. However, each iteration is dramatically faster, yielding competitive or superior total pipeline time for scenarios with high inlier ratios. The anchor coverage saturates at approximately 10,000 training pairs, with 28 anchors achieving 75% coverage at the 75% threshold.
我們在兩個具挑戰性的最小問題上進行評估。對於五點相對姿態問題,本方法在個別測試實例上達到 29.0% 的成功率,平均求解時間為每個實例 7.6 微秒。考慮失敗嘗試後,每次成功求解的有效時間為 26.1 微秒。在 CVPR 2020 RANSAC 基準測試上,成功率約為 25%,需要比經典 Nister 求解器多約 4 倍的 RANSAC 迭代。然而,每次迭代的速度大幅提升,在高內點比率的場景下產生具競爭力或更優的總管線時間錨點覆蓋率在約 10,000 個訓練對時達到飽和,28 個錨點在 75% 閾值下達到 75% 的覆蓋率
段落功能 實證驗證(一)——以五點問題展示方法的速度優勢與成功率權衡。
邏輯角色 五點問題是幾何視覺中最經典的基準。29% 的成功率與 7.6 微秒的求解時間構成一組權衡:比傳統方法成功率低但快得多。作者透過「有效時間」的概念將兩者整合,展示在 RANSAC 語境下的實際競爭力。
論證技巧 / 潛在漏洞 透明地報告 29% 這個看似不高的成功率,然後透過 RANSAC 的迭代邏輯解釋為何低成功率仍可接受,是誠實且具說服力的論證策略。但「高內點比率」的限定條件意味著方法在低內點比率場景下可能不具優勢——此適用範圍的限制值得更深入的討論。
For the significantly harder Scranton (four-point three-view) problem, which has 272 solutions in its relaxed formulation, our method achieves a success rate of 26.3% on isolated instances with a solving time of 16.3 microseconds. In the RANSAC context, an average of 4 samples are needed per successful solve, yielding a total effective time of 61.6 microseconds. This represents a speedup exceeding 10x compared to the prior best approximation method, which operates in the millisecond range. The 134 anchors required for the Scranton problem — compared to 70 for the five-point problem — reflect the greater topological complexity of the solution manifold. Notably, the method generalizes across different 3D scene reconstructions and handles noisy data and outliers typical in real-world vision applications.
對於難度顯著更高的 Scranton(四點三視圖)問題——其鬆弛表述有 272 個解——本方法在獨立實例上達到 26.3% 的成功率,求解時間為 16.3 微秒。在 RANSAC 語境下,每次成功求解平均需要 4 個樣本,總有效時間為 61.6 微秒。這相比先前最佳近似方法(毫秒等級)代表超過 10 倍的加速。Scranton 問題所需的 134 個錨點(相較於五點問題的 70 個)反映了解流形更大的拓撲複雜度。值得注意的是,該方法能跨不同的三維場景重建進行泛化,並處理真實世界視覺應用中常見的雜訊資料與離群值
段落功能 實證驗證(二)——以 Scranton 問題展示方法在「真正困難」問題上的優勢。
邏輯角色 Scranton 問題是本文的殺手級應用場景:272 個解使傳統方法極為緩慢,而本文方法僅需 61.6 微秒。10 倍加速不是理論預測而是實測結果,直接兌現了摘要中的承諾。從 70 個到 134 個錨點的增長也提供了方法可擴展性的初步訊號。
論證技巧 / 潛在漏洞 將 Scranton 問題作為主要展示場景是策略性的選擇——這恰好是傳統方法表現最差的地方,使加速倍率最為顯著。但 26.3% 的成功率意味著約四分之三的嘗試會失敗,在離群值比率極高的場景下(需要更多 RANSAC 迭代),累積的失敗次數可能抵消速度優勢。
Ablation studies reveal the contribution of each component. The input normalization is critical: without the canonical transformations that exploit problem symmetries, the classifier accuracy drops by over 15 percentage points. The sparse Jacobian exploitation provides roughly a 5x speedup in the continuation step, while real (vs. complex) arithmetic contributes approximately 14x. The number of anchors exhibits a saturation effect: increasing beyond the selected set yields diminishing returns in coverage. We also analyze failure modes: the most common cause of failure is path crossing — where the tracked path diverges to infinity or jumps to a different solution branch. These failures are inherent to the single-path tracking approach and cannot be eliminated entirely, but are effectively mitigated by the RANSAC framework's tolerance for solver failures.
消融研究揭示了各組件的貢獻。輸入正規化至關重要:若不進行利用問題對稱性的正則變換,分類器準確度下降超過 15 個百分點稀疏雅可比矩陣的利用在延拓步驟中提供約 5 倍加速,而實數(相對於複數)算術貢獻約 14 倍錨點數量呈現飽和效應:超出選定集合後,覆蓋率的提升遞減我們也分析了失敗模式:最常見的失敗原因是路徑交叉——追蹤的路徑發散至無窮大或跳躍至不同的解分支。這些失敗是單路徑追蹤方法的固有缺陷,無法完全消除,但可被 RANSAC 框架對求解器失敗的容忍度有效緩解
段落功能 深度分析——透過消融研究與失敗模式分析,驗證各組件的必要性並坦承方法的固有限制。
邏輯角色 此段回答了兩個隱含問題:(1)「每個設計選擇真的必要嗎?」——是,消融研究確認每項都有顯著貢獻;(2)「方法何時會失敗?」——路徑交叉是固有限制,但與 RANSAC 相容。這種自我批判增強了論證的可信度。
論證技巧 / 潛在漏洞 主動揭示失敗模式(路徑交叉)是學術寫作的最佳實踐——與其讓審稿者發現,不如自行陳述並提供緩解策略。將 RANSAC 的容錯性作為失敗的「安全網」是巧妙的論證,但這也意味著方法無法獨立使用(離開 RANSAC 框架則無法容忍高失敗率)。

5. Conclusion — 結論

We have presented a learning-based framework for solving hard minimal problems that combines homotopy continuation with a learned anchor selection classifier. The "Pick & Solve" paradigm fundamentally changes how minimal solvers operate: rather than exhaustively computing all solutions, we predict a single promising start point and track one real solution path. Our experiments on the five-point and Scranton problems demonstrate that this approach yields solving times in the microsecond range, representing order-of-magnitude speedups for problems previously considered intractable for real-time RANSAC. The framework is general and can be applied to any minimal problem expressible as a parametric polynomial system, opening the door to practical deployment of many hard solvers identified in recent multiview geometry classification studies.
我們提出了一個基於學習的框架來求解困難最小問題結合同倫延拓與學習式錨點選擇分類器「先選後解」範式從根本上改變了最小求解器的運作方式:不再窮舉計算所有解,而是預測一個有前景的起始點並追蹤一條實數解路徑。我們在五點問題Scranton 問題上的實驗證明,此方法產生微秒等級的求解時間,對於先前被認為無法在即時 RANSAC 中處理的問題,代表了數量級的加速此框架具有通用性,可應用於任何可表述為參數化多項式系統的最小問題,為近期多視圖幾何分類研究中識別的眾多困難求解器的實際部署打開了大門。
段落功能 總結全文——重申核心貢獻並展望通用化前景。
邏輯角色 結論段呼應摘要的結構,從具體成果回到通用啟示:「先選後解」不僅適用於本文的兩個問題,而是一個可推廣的通用框架。形成完整的論證閉環:從「困難問題不可即時求解」到「學習引導使即時求解成為可能」。
論證技巧 / 潛在漏洞 「通用性」的宣稱是論文的重要加值——暗示此框架是一個平台而非一次性技巧。但通用性需以更多問題類型的實驗來支撐,目前僅驗證了兩種問題。此外,對於解的拓撲結構極其複雜的問題(如需要更多錨點),MLP 分類器的規模與準確度是否仍足夠,尚未被探討。
Looking forward, several exciting directions emerge. The anchor construction could be improved using more sophisticated graph algorithms or by learning the anchors themselves end-to-end. The classifier architecture could incorporate geometric inductive biases, such as equivariance to the problem's symmetry group, potentially improving generalization. The current approach does not guarantee finding a solution, and developing methods to certify solvability or provide fallback strategies would enhance reliability. Finally, extending the framework to overconstrained systems and non-minimal solvers could broaden its impact beyond the RANSAC setting.
展望未來,若干令人振奮的方向浮現。錨點建構可透過更精密的圖演算法或端到端學習錨點本身而改進分類器架構可融入幾何歸納偏置,如對問題對稱群的等變性,以潛在地改善泛化能力。當前方法無法保證找到解,開發可認證求解性或提供備援策略的方法將增強可靠性。最後,將框架擴展至超約束系統與非最小求解器,可將其影響力擴展至 RANSAC 設定之外。
段落功能 未來展望——坦承局限並指出改進方向。
邏輯角色 此段以建設性的語氣處理方法的局限性:不保證求解的問題、分類器架構的改進空間、以及向非 RANSAC 場景的推廣。每個限制都配對一個改進方向,展現作者對領域的深入理解。
論證技巧 / 潛在漏洞 提及「等變性」分類器是對當前機器學習趨勢的敏銳呼應。但最關鍵的未來方向——求解性認證——也暗示了當前方法的最大弱點:無法區分「分類器選錯錨點」與「問題本身無實數解」。這對於安全關鍵的應用(如自駕車定位)可能是不可接受的。

論證結構總覽

問題
困難最小問題解數極多
傳統求解器速度不足
論點
「先選後解」範式
學習導引 + 同倫追蹤
證據
五點問題 7.6 微秒
Scranton 問題 10 倍加速
反駁
低成功率可由 RANSAC
多次迭代有效補償
結論
通用框架使困難最小
問題即時求解可行

作者核心主張(一句話)

透過以學習式分類器選擇同倫延拓的起始錨點,可在僅追蹤單一實數路徑的前提下,將困難最小問題的求解時間從毫秒壓縮至微秒等級,使其首次在即時 RANSAC 管線中具備實用性。

論證最強處

範式翻轉的精妙設計:「先選後解」的策略將求解成本從「解的數量 x 單路徑成本」降至「分類器推論 + 單路徑成本」,在數學上嚴謹(同倫延拓的收斂保證),在工程上實用(MLP 的 8 微秒推論、稀疏雅可比的封閉形式求解),且在框架上通用(可應用於任何參數化多項式系統)。

論證最弱處

成功率與框架依賴性:約 25-30% 的單次成功率意味著方法高度依賴 RANSAC 的容錯機制,無法作為獨立求解器使用。在離群值比率極高的場景下,額外的迭代次數可能抵消速度優勢。此外,方法的「通用性」宣稱目前僅以兩類問題驗證,對於解流形拓撲更複雜的問題(需更多錨點、更大分類器),可擴展性尚待證明。

Thesis 核心論點
Concept 關鍵概念
Evidence 實證證據
Rebuttal 讓步反駁
Method 方法論