摘要 1. 緒論 2. 方法 3. 訓練 4. 實驗 5. 結論 論證總覽

Abstract — 摘要

We present Pose-NDF, a method that learns a continuous model of plausible human poses as the zero level set of a neural implicit function. We extend the idea of modeling implicit surfaces in 3D to the high-dimensional domain SO(3)^K, where a human pose is defined by a single data point, represented by K quaternions corresponding to K body joints. The neural distance field provides a smooth and continuous representation of the pose manifold, enabling gradient-based optimization for pose estimation and generation tasks. We demonstrate that Pose-NDF outperforms existing pose priors on multiple downstream tasks including pose estimation from noisy observations, pose completion, and motion denoising.
本文提出 Pose-NDF,此方法將合理的人體姿態流形學習為神經隱式函數的零等位面集。我們將三維隱式表面建模的思想延伸至高維域 SO(3)^K,其中人體姿態由單一資料點定義,以對應 K 個身體關節的 K 個四元數表示。神經距離場提供了姿態流形的平滑連續表示,使得基於梯度的最佳化可用於姿態估計與生成任務。我們展示 Pose-NDF 在多個下游任務上超越現有姿態先驗,包括從雜訊觀測進行姿態估計、姿態補全和運動去噪
段落功能 全文總覽——將神經隱式表面的概念推廣至人體姿態空間。
邏輯角色 摘要兼具「概念創新宣告」與「應用承諾」的雙重功能:先提出在 SO(3)^K 上建模姿態流形的新穎思路,再以多個下游任務的表現佐證。
論證技巧 / 潛在漏洞 以「3D 隱式表面到高維」的類比,巧妙地連結了 NeRF/SDF 社群的知識背景。但 SO(3)^K 的拓撲結構遠比歐氏空間複雜,讀者需要留意這種推廣是否引入了新的理論挑戰。

1. Introduction — 緒論

Modeling the space of plausible human poses is fundamental to many applications in computer vision, including human pose estimation, motion capture, animation, and action recognition. Existing approaches typically represent pose priors as Gaussian Mixture Models (GMMs), Variational Autoencoders (VAEs), or normalizing flows. While effective in certain settings, these methods often struggle with the complex topology of the pose manifold, produce blurry or overly smooth samples, or require expensive sampling procedures. We propose a fundamentally different approach: representing the pose manifold as an implicit function that assigns a distance value to any point in the pose space.
建模合理人體姿態的空間是電腦視覺中許多應用的基礎,包括人體姿態估計、動作捕捉、動畫和動作識別。現有方法通常以高斯混合模型(GMM)變分自編碼器(VAE)正規化流表示姿態先驗。雖然在特定場景下有效,這些方法往往難以處理姿態流形的複雜拓撲、產生模糊或過度平滑的樣本,或需要昂貴的採樣程序。本文提出一種根本不同的方法:將姿態流形表示為一個隱式函數,為姿態空間中的任意點賦予距離值
段落功能 建立問題意識——指出現有姿態先驗方法的不足。
邏輯角色 透過列舉 GMM、VAE、正規化流的局限,引出「隱式函數」這一新範式的合理性。
論證技巧 / 潛在漏洞 以「根本不同」的措辭強調方法的新穎性。但 VAE 等方法在特定任務上的表現未必如描述般不理想,這種概括可能過度簡化了現有文獻。
The key insight of our work is that the manifold of plausible human poses can be characterized by its distance field. Given a query pose (potentially noisy or incomplete), the neural distance field provides the distance to the nearest plausible pose on the manifold. This distance field is differentiable everywhere, enabling efficient gradient-based projection onto the manifold. This is in contrast to explicit representations which require either sampling from a learned distribution or solving a complex optimization problem to find the nearest valid pose.
本研究的核心洞察在於:合理人體姿態的流形可以由其距離場來描述。給定一個查詢姿態(可能帶噪或不完整),神經距離場提供到流形上最近合理姿態的距離。此距離場處處可微,使得基於梯度的流形投影高效可行。相較之下,顯式表示要麼需要從學習到的分布中採樣,要麼需求解複雜的最佳化問題才能找到最近的有效姿態。
段落功能 核心洞察闡述——解釋隱式距離場表示的優勢。
邏輯角色 從問題陳述過渡到解決方案:「處處可微」是連接「距離場表示」與「梯度最佳化」的關鍵橋樑。
論證技巧 / 潛在漏洞 以隱式/顯式的對比清楚地凸顯了方法優勢。但「處處可微」在高維 SO(3)^K 空間中是否真正成立,取決於網路的具體設計。

2. Method — 方法

We represent each human pose as a point in SO(3)^K, where K is the number of body joints. Each joint rotation is parameterized as a unit quaternion q_i in S^3. The full pose is then a point on the product manifold p = (q_1, q_2, ..., q_K) in (S^3)^K. We train a neural network f_theta: (S^3)^K -> R that maps any pose to its unsigned distance to the nearest plausible pose on the manifold. The network is trained such that f_theta(p) = 0 for plausible poses and f_theta(p) > 0 for implausible poses, with the value indicating how far the pose deviates from plausibility.
我們將每個人體姿態表示為 SO(3)^K 中的點,其中 K 為身體關節數量。每個關節旋轉以 S^3 上的單位四元數 q_i 參數化。完整姿態即乘積流形上的一點 p = (q_1, q_2, ..., q_K) 屬於 (S^3)^K。我們訓練一個神經網路 f_theta: (S^3)^K -> R,將任意姿態映射至其到流形上最近合理姿態的無符號距離。網路的訓練目標為:合理姿態的 f_theta(p) = 0,不合理姿態的 f_theta(p) > 0,數值表示姿態偏離合理性的程度。
段落功能 形式化定義——建立數學框架。
邏輯角色 將直覺性的「距離場」概念轉化為嚴格的數學表述,包含空間定義、映射函數和訓練目標。
論證技巧 / 潛在漏洞 以清晰的數學符號建立形式框架。但四元數的不唯一性(q 和 -q 表示相同旋轉)需要特殊處理,此段未提及這一技術細節。
To leverage the Riemannian structure of SO(3), we compute geodesic distances on the rotation manifold rather than Euclidean distances in the embedding space. Specifically, the distance between two quaternions is computed as d(q_i, q_j) = 2 arccos(|q_i . q_j|), respecting the topology of the rotation group. For downstream tasks, we formulate pose estimation as an optimization problem: minimize f_theta(p) subject to data consistency constraints, using gradient descent on the manifold to project noisy observations onto plausible poses.
為利用 SO(3) 的黎曼結構,我們在旋轉流形上計算測地距離,而非嵌入空間中的歐氏距離。具體而言,兩個四元數之間的距離計算為 d(q_i, q_j) = 2 arccos(|q_i . q_j|),尊重旋轉群的拓撲。對於下游任務,我們將姿態估計建構為最佳化問題:在資料一致性約束下最小化 f_theta(p),使用流形上的梯度下降將雜訊觀測投影至合理姿態。
段落功能 技術深化——詳述黎曼幾何在距離計算中的應用。
邏輯角色 展示方法的數學嚴謹性:不是簡單地將歐氏空間方法搬到 SO(3),而是真正利用了流形結構。
論證技巧 / 潛在漏洞 強調測地距離而非歐氏距離,展現了對旋轉群幾何的深入理解。但流形上的梯度下降收斂速度可能較慢,實際效率需要實驗驗證。

3. Training — 訓練

We train Pose-NDF using the AMASS dataset, which contains over 11,000 motion sequences spanning 40 hours of motion data. We sample training poses both on the manifold (plausible poses from the dataset) and off the manifold (generated by adding controlled noise to plausible poses). For off-manifold points, the ground truth distance is computed as the geodesic distance to the nearest on-manifold point using k-nearest neighbor search in the quaternion space. The network is trained with an L1 loss on the predicted distances, combined with an Eikonal regularization term that encourages the gradient magnitude to be close to one, ensuring the learned function behaves like a proper distance field.
我們使用 AMASS 資料集訓練 Pose-NDF,該資料集包含超過 11,000 個運動序列,涵蓋 40 小時的運動資料。訓練姿態來自流形上(資料集中的合理姿態)和流形外(透過對合理姿態加入控制噪音生成)。對於流形外的點,真實距離透過在四元數空間中使用 k 近鄰搜尋計算到最近流形上點的測地距離。網路以預測距離的 L1 損失結合 Eikonal 正則化項進行訓練,後者鼓勵梯度大小接近一,確保學習到的函數表現如正規的距離場。
段落功能 訓練細節——描述資料、採樣策略和損失函數。
邏輯角色 從方法論轉向實作:AMASS 資料集的規模建立了可信度,Eikonal 正則化確保了距離場的數學性質。
論證技巧 / 潛在漏洞 Eikonal 正則化是從 3D 隱式表面(如 DeepSDF)借鑒的成熟技術,增強了方法的可信度。但真實距離的近似計算依賴 k-NN,在高維空間中可能不夠精確。

4. Experiments — 實驗

We evaluate Pose-NDF on three downstream tasks. For pose estimation from noisy observations, we compare against VPoser, GMM-based priors, and normalizing flow priors. Pose-NDF achieves the lowest reconstruction error across all noise levels, with particularly significant improvements at high noise levels (above 30 degrees per joint). The smooth gradient field enables robust convergence even from poor initializations, where competing methods frequently get stuck in local minima.
我們在三個下游任務上評估 Pose-NDF。在從雜訊觀測進行姿態估計方面,我們與 VPoser、基於 GMM 的先驗和正規化流先驗進行比較。Pose-NDF 在所有噪音水準下達到最低重建誤差,在高噪音水準(每關節超過 30 度)下改善尤為顯著。平滑的梯度場使得即使從不佳的初始化開始也能穩健收斂,而競爭方法在此條件下經常陷入局部最小值。
段落功能 核心實驗結果——展示姿態估計的量化比較。
邏輯角色 以具體數據支持「距離場表示優於現有先驗」的核心論點。
論證技巧 / 潛在漏洞 強調高噪音場景下的顯著改善,將方法定位在最具挑戰性的設定中。但未詳細報告計算時間的比較。
For pose completion (recovering a full body pose from partial joint observations), Pose-NDF demonstrates superior ability to infer occluded joint positions. When only 50% of joints are observed, Pose-NDF achieves a mean error of 4.8 degrees compared to 7.2 degrees for VPoser and 6.1 degrees for the normalizing flow baseline. For motion denoising, we apply Pose-NDF independently to each frame of a noisy motion sequence, projecting each pose onto the manifold. The resulting sequences are temporally smoother and more physically plausible than those produced by frame-independent baseline methods.
姿態補全(從部分關節觀測恢復完整人體姿態)方面,Pose-NDF 展現了推斷遮擋關節位置的卓越能力。當僅觀測 50% 的關節時,Pose-NDF 達到平均誤差 4.8 度,而 VPoser 為 7.2 度,正規化流基準為 6.1 度。在運動去噪方面,我們將 Pose-NDF 獨立應用於噪音運動序列的每一幀,將每個姿態投影至流形上。結果序列在時間上更加平滑,且比逐幀獨立處理的基準方法更符合物理合理性
段落功能 補充實驗——補全與去噪任務的量化結果。
邏輯角色 多任務驗證強化了 Pose-NDF 作為通用姿態先驗的定位。
論證技巧 / 潛在漏洞 具體的數字比較(4.8 vs 7.2 vs 6.1)清楚地量化了優勢。但逐幀獨立處理忽略了時序一致性,運動去噪結果的「平滑」可能部分來自於距離場的固有特性而非有意設計。

5. Conclusion — 結論

We have introduced Pose-NDF, a novel representation of human pose manifolds using neural distance fields. By extending implicit surface modeling to the high-dimensional rotation space SO(3)^K, we provide a continuous, differentiable, and geometry-aware prior for human poses. Our experiments demonstrate consistent improvements over existing pose priors across pose estimation, completion, and denoising tasks. The distance field representation offers unique advantages: it naturally supports gradient-based optimization, provides a meaningful measure of pose plausibility, and generalizes well to unseen poses. Future work may extend this approach to dynamic pose manifolds and incorporate temporal coherence directly into the distance field formulation.
本文提出了 Pose-NDF一種使用神經距離場的人體姿態流形新表示。透過將隱式表面建模擴展到高維旋轉空間 SO(3)^K,我們為人體姿態提供了連續、可微且幾何感知的先驗。實驗證明了其在姿態估計、補全和去噪任務上相較於現有姿態先驗的一致性改善。距離場表示提供了獨特優勢:天然支援梯度最佳化、提供有意義的姿態合理性度量,並能良好地泛化至未見姿態。未來工作可將此方法擴展至動態姿態流形,並直接在距離場公式中納入時序一致性。
段落功能 全文總結與前瞻——重申貢獻並展望未來方向。
邏輯角色 以三個優勢總結全文,並以「動態流形」和「時序一致性」提示未來研究空間。
論證技巧 / 潛在漏洞 結論中提到的「時序一致性」正好呼應了運動去噪實驗中的不足,顯示作者對方法局限的自覺。

論證結構總覽

問題
現有姿態先驗難以
處理複雜拓撲
論點
以神經距離場
建模姿態流形
證據
三項任務上
超越現有方法
反駁
利用黎曼結構
處理 SO(3) 拓撲
結論
NDF 是有效的
通用姿態先驗

核心主張

人體姿態流形可以用神經距離場的零等位面來表示,此表示天然支援梯度最佳化且提供連續、可微的姿態合理性度量。

最強論點

在高噪音場景(每關節 30 度以上)下的穩健收斂能力,展示了距離場平滑梯度的核心優勢,且是現有方法難以匹敵的領域。

最弱環節

運動去噪任務中逐幀獨立處理缺乏時序一致性約束,限制了方法在時序應用中的直接適用性。

核心論點 / Thesis
關鍵概念 / 術語
實證證據 / 資料
讓步 / 反駁處理
方法論說明