Abstract — 摘要
Representing and rendering dynamic scenes has been an important but challenging task. Especially, many real-world scenes involve complex motions that need to be modeled with both spatially and temporally sparse input. Recent methods extend 3D Gaussian Splatting (3D-GS) to handle static scenes with remarkable quality and speed, but directly applying 3D-GS per frame is impractical for dynamic content. In this paper, the authors propose 4D Gaussian Splatting (4D-GS), a unified representation for dynamic scenes that combines 3D Gaussians and 4D neural voxels. A decomposed neural voxel encoding algorithm inspired by HexPlane is introduced, and a lightweight MLP predicts Gaussian deformations at novel timestamps. The method achieves real-time rendering under high resolutions, 82 FPS at an 800x800 resolution on an RTX 3090 GPU, while maintaining quality comparable to or better than state-of-the-art methods.
動態場景的表示與算繪一直是重要但極具挑戰性的任務。尤其在真實世界中,許多場景包含複雜運動,需要在空間與時間上均稀疏的輸入條件下進行建模。近期方法將三維高斯潑灑(3D-GS)擴展至靜態場景,取得了出色的品質與速度,但逐幀套用 3D-GS 對動態內容而言並不實際。本文提出四維高斯潑灑(4D-GS),一種結合三維高斯與四維神經體素的統一動態場景表示。作者引入受 HexPlane 啟發的分解式神經體素編碼演算法,並以輕量級多層感知器預測不同時間戳下的高斯變形。該方法在 RTX 3090 GPU 上於 800x800 解析度下達到每秒 82 幀的即時算繪,同時維持與最先進方法相當或更佳的品質。
段落功能
全文總覽——從動態場景的挑戰出發,依序點出現有方法的瓶頸、本文的核心創新與關鍵成果。
邏輯角色
摘要扮演「問題界定與方案預告」的雙重功能:先確立動態場景即時算繪的雙重需求(品質與速度),再以一段話概述 4D-GS 如何同時回應兩者。
論證技巧 / 潛在漏洞
以具體數據(82 FPS、800x800、RTX 3090)量化速度優勢,極具說服力。然而「comparable to or better than」的措辭較為模糊,未交代在哪些指標上超越、哪些僅持平,需待實驗章節驗證。
1. Introduction — 緒論
Novel view synthesis (NVS) represents a critical task in the domain of 3D vision and plays a vital role in many applications, e.g. VR, AR, and movie production. NVS aims at rendering images from desired viewpoints or timestamps of scenes, typically requiring accurate scene modeling from sparse 2D input images. Dynamic scenes are common in real scenarios, making rendering challenging since complex motions need to be modeled with both spatially and temporally sparse input. NeRF achieved significant success in novel view synthesis through implicit function representation of scenes, where volume rendering techniques connect 2D images and 3D scenes. However, the original NeRF method incurs substantial training and rendering costs. Various NeRF variants reduced training time from days to minutes, yet the rendering process still bears a non-negligible latency.
新視角合成(NVS)是三維視覺領域的關鍵任務,在虛擬實境、擴增實境和電影製作等應用中扮演重要角色。NVS 旨在從期望的視角或時間戳算繪場景影像,通常需要從稀疏的二維輸入影像中進行精確的場景建模。動態場景在真實情境中十分常見,由於複雜運動需要在空間與時間上均稀疏的輸入下進行建模,使得算繪尤為困難。NeRF 透過場景的隱式函數表示在新視角合成上取得了重大突破,以體積算繪技術連結二維影像與三維場景。然而,原始 NeRF 方法需付出極高的訓練與算繪代價。儘管各種 NeRF 變體已將訓練時間從數天降至數分鐘,算繪過程仍存在不可忽略的延遲。
段落功能
建立研究場域——從 NVS 的應用價值出發,經由 NeRF 的成就指出動態場景與效率問題的雙重缺口。
邏輯角色
論證鏈的起點:先肯定 NeRF 在靜態場景的成就,再以「訓練昂貴、算繪延遲」做為轉折,暗示需要全新的表示方法。
論證技巧 / 潛在漏洞
以「從數天到數分鐘」的遞進描述展現 NeRF 家族的進步速度,同時以「不可忽略的延遲」維持問題的迫切性。此處策略性地省略了 Instant-NGP 等已接近即時的隱式方法,為引入 3D-GS 留下空間。
Recent 3D Gaussian Splatting (3D-GS) significantly accelerates rendering to real-time levels by representing the scene as 3D Gaussians. Efficient differentiable splatting replaces volume rendering by directly projecting 3D Gaussian points onto the 2D plane. This approach offers real-time rendering speed and explicit scene representation amenable to manipulation. However, 3D-GS focuses on static scenes. Extending it to dynamic scenes as a 4D representation remains challenging. The primary challenge involves modeling complicated point motions from sparse input. While 3D-GS maintains natural geometry priors through point-like Gaussians, constructing 3D Gaussians at each timestamp multiplies storage costs, especially for extended sequences.
近期的三維高斯潑灑(3D-GS)透過將場景表示為三維高斯,顯著地將算繪加速至即時等級。高效的可微分潑灑取代了體積算繪,直接將三維高斯點投影至二維平面。此方法提供即時算繪速度與便於操控的顯式場景表示。然而,3D-GS 專注於靜態場景,將其擴展至動態場景作為四維表示仍具挑戰性。主要挑戰在於從稀疏輸入中建模複雜的點運動。儘管 3D-GS 透過類點狀高斯保有自然的幾何先驗,在每個時間戳各自建構三維高斯將使儲存成本倍增,對於長序列尤其嚴重。
段落功能
指出現有方法瓶頸——肯定 3D-GS 的靜態場景優勢後,精確定位其在動態場景的三項不足。
邏輯角色
「肯定-轉折」結構:3D-GS 的即時算繪能力正是本文想要保留的優勢,而「靜態場景限定」與「逐幀儲存暴增」則是本文要克服的精確缺口。
論證技巧 / 潛在漏洞
將儲存問題明確量化為「逐時間戳倍增」,使讀者直覺感受到 naive 擴展的不可行性。但作者未提及 Dynamic3DGS 等同期工作已嘗試解決此問題,此處的問題陳述可能過於簡化競爭方法的能力。
The research goal aims to construct a compact representation while maintaining both training and rendering efficiency. The authors propose maintaining only one canonical 3D Gaussian set; for each timestamp, these Gaussians transform via a deformation field network into new positions with modified shapes. This transformation represents motion and deformation. Unlike approaches modeling individual Gaussian motions separately, the spatial-temporal structure encoder can connect different adjacent 3D Gaussians to predict more accurate motions and shape deformation. The contributions include: (1) an efficient 4D Gaussian splatting framework modeling both Gaussian motion and shape changes across time; (2) a multi-resolution encoding method connecting nearby 3D Gaussians via a spatial-temporal structure encoder; (3) real-time rendering up to 82 FPS at 800x800 for synthetic datasets and 30 FPS at 1352x1014 in real datasets.
本研究的目標是在維持訓練與算繪效率的同時,建構一個緊湊的表示。作者提出僅維護一組正規三維高斯;在每個時間戳,這些高斯透過變形場網路轉換至新位置並改變形狀。此轉換表達了運動與變形。不同於分別建模個別高斯運動的方法,時空結構編碼器能連結不同的鄰近三維高斯,以預測更準確的運動與形狀變形。主要貢獻包含:(1) 一個高效的四維高斯潑灑框架,對高斯的運動與形狀變化進行跨時間建模;(2) 一種多解析度編碼方法,透過時空結構編碼器連結鄰近的三維高斯;(3) 在合成資料集上達到 800x800 解析度每秒 82 幀、在真實資料集上達到 1352x1014 解析度每秒 30 幀的即時算繪。
段落功能
提出解決方案並列舉貢獻——完整概述 4D-GS 的設計理念與三項具體貢獻。
邏輯角色
承接上段的問題陳述,此段扮演「轉折-方案提出」角色。「正規高斯+變形場」直接回應儲存成本問題,「時空編碼器」則回應稀疏輸入下的運動建模需求。
論證技巧 / 潛在漏洞
以條列式貢獻清晰劃分創新面向,且以具體 FPS 數據量化效能。但「連結鄰近高斯」的優勢主張需在消融研究中提供對照才具說服力——若鄰域資訊的增益微小,則此貢獻可能被高估。
2. Related Work — 相關工作
Implicit radiance fields effectively learn scene representations for novel view synthesis. Researchers extended static assumptions, addressing dynamic scene novel view synthesis. Canonical mapping neural rendering methods employ explicit voxel grids for temporal information modeling, accelerating learning to approximately thirty minutes. K-Planes and related approaches represent further advances in efficient dynamic scene learning by adopting decomposed neural voxels and treating sampled points at each timestamp individually. Though these approaches achieve fast training speeds, real-time rendering for dynamic scenes is still challenging, especially for monocular input. The proposed method targets constructing a highly efficient training and rendering pipeline while maintaining the quality, even for sparse inputs.
隱式輻射場能有效地學習場景表示以進行新視角合成。研究者將靜態假設加以擴展,處理動態場景的新視角合成。正規映射神經算繪方法採用顯式體素網格進行時間資訊建模,將學習加速至約三十分鐘。K-Planes 等方法透過採用分解式神經體素,在高效動態場景學習方面取得進一步進展,將各時間戳的取樣點個別處理。儘管這些方法達到了快速的訓練速度,動態場景的即時算繪仍具挑戰性,尤其對單目輸入而言。本方法以建構高效的訓練與算繪管線為目標,即使在稀疏輸入條件下仍維持品質。
段落功能
文獻回顧——梳理動態神經算繪從隱式表示到分解式體素的演進脈絡。
邏輯角色
以時間序列呈現技術演進:隱式場 -> 正規映射 -> 分解體素 -> 本文方法。每一步解決了前一步的部分問題,但「即時算繪」始終未被滿足,為 4D-GS 的定位留出空間。
論證技巧 / 潛在漏洞
「尤其對單目輸入」的限定巧妙地收窄了問題範圍——若限定為多相機設定,某些既有方法已可接近即時。此處刻意突出最具挑戰性的場景配置,以強化本文方法的必要性。
3D scene representation remains challenging. The community explored various neural representations including meshes, point clouds, and hybrid approaches. 3D-GS notably achieves pure explicit representation and differentiable point-based splatting methods, enabling real-time rendering of novel views. Dynamic3DGS models dynamic scenes by tracking the position and variance of each 3D Gaussian at each timestamp, utilizing explicit tables storing information at every timestamp. This approach incurs linear memory consumption increase, denoted as O(t*N), in which N is the number of 3D Gaussians. The proposed approach's memory complexity depends only on the number of 3D Gaussians and parameters of the Gaussian deformation field network F, which is denoted as O(N+F). Another method adds temporal Gaussian distribution to original 3D Gaussians, elevating them to 4D, though each 3D Gaussian only focuses on its local temporal space. The proposed approach also models Gaussian motions but with a compact network, resulting in highly efficient training and real-time rendering.
三維場景表示仍是一項挑戰。學界已探索了包括網格、點雲及混合方法等多種神經表示。3D-GS 透過純顯式表示與可微分的點基潑灑方法,實現了新視角的即時算繪。Dynamic3DGS 藉由在每個時間戳追蹤每個三維高斯的位置與變異數來建模動態場景,使用顯式表格儲存各時間戳的資訊。此方法導致線性的記憶體消耗增長,記為 O(t*N),其中 N 為三維高斯的數量。本文方法的記憶體複雜度僅取決於三維高斯的數量與高斯變形場網路 F 的參數,記為 O(N+F)。另有方法在原始三維高斯上新增時間高斯分布以提升為四維,但每個三維高斯僅關注其局部時間空間。本文方法同樣建模高斯運動,但以緊湊的網路實現,帶來高效的訓練效率與即時算繪。
段落功能
競爭方法比較——以記憶體複雜度為核心指標,系統性對比三種點雲動態表示策略。
邏輯角色
以量化分析取代定性批評:O(t*N) vs. O(N+F) 的複雜度對比,直接展示本文方法在儲存效率上的結構性優勢。此段也預告了方法章節的核心設計——變形場網路。
論證技巧 / 潛在漏洞
以大O符號進行複雜度比較清晰有力,但 O(N+F) 中的 F 大小未被明確約束——若變形場網路參數極多,實際記憶體消耗可能並不如理論暗示的那般有利。此外,逐幀方法(O(t*N))在品質上可能有優勢,作者未在此處正面回應。
3. Preliminary — 預備知識
3D Gaussians represent an explicit 3D scene representation as point clouds. Each Gaussian is characterized by a covariance matrix Σ and a center point X, which is referred to as the mean value of the Gaussian: G(X) = exp(-1/2 XT Σ-1 X). For differentiable optimization, the covariance matrix decomposes into scaling and rotation matrices: Σ = RSSTRT. Each 3D Gaussian is characterized by: position X ∈ R3, color defined by spherical harmonic (SH) coefficients C, opacity α, rotation factor r ∈ R4, and scaling factor s ∈ R3. When rendering novel views, differential splatting projects 3D Gaussians onto camera planes. For each pixel, the blending of N ordered overlapping points follows: C = Σi∈N ci αi Πj=1i-1(1-αj).
三維高斯是一種以點雲形式呈現的顯式三維場景表示。每個高斯由共變異數矩陣 Σ 與中心點 X(即高斯的均值)所定義:G(X) = exp(-1/2 X^T Σ^{-1} X)。為了進行可微分最佳化,共變異數矩陣分解為縮放與旋轉矩陣:Σ = RSS^T R^T。每個三維高斯的屬性包含:位置 X、以球諧函數(SH)係數定義的顏色 C、不透明度 α、旋轉因子 r,以及縮放因子 s。在算繪新視角時,可微分潑灑將三維高斯投影至相機平面。對每個像素,N 個有序重疊點的混合公式為:C = Σ c_i α_i Π(1-α_j)。
段落功能
數學基礎建立——詳述 3D-GS 的表示形式、屬性定義與算繪公式。
邏輯角色
此段為方法章節的數學前提:4D-GS 的一切擴展皆建立在此處定義的高斯屬性(位置、旋轉、縮放)之上。讀者需先理解這些屬性,才能理解後續的「變形」操作意義。
論證技巧 / 潛在漏洞
將共變異數矩陣分解為旋轉與縮放的做法簡化了最佳化問題,但作者未提及此分解可能引入的數值穩定性問題。此外,alpha 混合公式假設由前至後的排序,在動態場景中排序的計算成本可能增加。
All dynamic NeRF algorithms follow the formulation: c, σ = M(x, t), where M maps 6D space to 4D space. Dynamic NeRFs primarily follow canonical-mapping or time-aware volume rendering approaches. Canonical-mapping volume rendering transforms each sampled point into a canonical space by a deformation network: c, σ = NeRF(x + Δx). The proposed 4D Gaussian splatting presents a novel rendering technique. The method transforms 3D Gaussians using a Gaussian deformation field network F at time t directly, and differentiable splatting is followed. This fundamentally differs from NeRF-based methods in that no volume rendering integration is required.
所有動態 NeRF 演算法遵循以下公式:c, σ = M(x, t),其中 M 將六維空間映射至四維空間。動態 NeRF 主要採用正規映射或時間感知體積算繪兩種途徑。正規映射體積算繪透過變形網路將每個取樣點轉換至正規空間:c, σ = NeRF(x + Δx)。本文提出的四維高斯潑灑呈現了一種全新的算繪技術。該方法在時間 t 直接透過高斯變形場網路 F 轉換三維高斯,隨後進行可微分潑灑。這與基於 NeRF 的方法有根本差異——無需體積算繪積分。
段落功能
概念橋接——將動態 NeRF 的變形場概念嫁接至高斯潑灑框架。
邏輯角色
此段是從預備知識到方法的關鍵過渡:借用動態 NeRF 中「正規空間+變形」的成熟概念,但以高斯潑灑取代體積算繪,實現本質性的效率提升。
論證技巧 / 潛在漏洞
以「無需體積算繪積分」劃出與 NeRF 系列的根本區別,突顯效率優勢。但此簡化也意味著放棄了體積算繪對半透明與複雜光照效果的天然支援能力。
4. Method — 方法
4.1 4D Gaussian Splatting Framework — 四維高斯潑灑框架
Given a view matrix M=[R,T] and a timestamp t, the 4D Gaussian splatting framework includes 3D Gaussians G and a deformation field network F. Novel-view image rendering follows: I = S(M, G'), where G' = ΔG + G. The Gaussian deformation ΔG is introduced by the deformation field network: ΔG = F(G, t). The spatial-temporal structure encoder H encodes temporal and spatial features: fd = H(G, t). The multi-head decoder D predicts Gaussian deformation: ΔG = D(f). Then deformed 3D Gaussians G' undergo rendering via differentiable splatting. 4D Gaussian splatting converts the original 3D Gaussians G into another group of 3D Gaussians G' given a timestamp t.
給定觀測矩陣 M=[R,T] 與時間戳 t,四維高斯潑灑框架包含三維高斯 G 與變形場網路 F。新視角影像算繪遵循:I = S(M, G'),其中 G' = ΔG + G。高斯變形 ΔG 由變形場網路引入:ΔG = F(G, t)。時空結構編碼器 H 編碼時間與空間特徵:f_d = H(G, t)。多頭解碼器 D 預測高斯變形:ΔG = D(f)。隨後,變形後的三維高斯 G' 透過可微分潑灑進行算繪。四維高斯潑灑在給定時間戳 t 下,將原始三維高斯 G 轉換為另一組三維高斯 G'。
段落功能
架構總覽——以公式化語言定義 4D-GS 的完整管線。
邏輯角色
此段是整個方法的數學框架。G' = ΔG + G 的加法形式意味著變形是相對於正規狀態的增量,而非絕對值重建——此設計選擇簡化了學習難度。
論證技巧 / 潛在漏洞
以模組化方式(編碼器 H + 解碼器 D)呈現網路架構,使每個組件的功能清晰可辨。但增量式變形 ΔG + G 假設運動為連續小變形,對於拓撲結構變化(如物件出現或消失)的處理能力可能受限。
4.2 Gaussian Deformation Field Network — 高斯變形場網路
Nearby 3D Gaussians always share similar spatial and temporal information. The spatial-temporal structure encoder includes multi-resolution HexPlane Rl(i,j) and a tiny MLP φd. While vanilla 4D neural voxels are memory-consuming, the method adopts a 4D K-Planes module to decompose the 4D neural voxel into 6 planes. The encoder contains 6 multi-resolution plane modules and a tiny MLP: H(G,t) = {Rl(i,j), φd | (i,j) ∈ {(x,y),(x,z),(y,z),(x,t),(y,t),(z,t)}, l ∈ {1,2}}. Each voxel module R(i,j) ∈ Rh×lNi×lNj, where h is the feature hidden dimension and N denotes basic voxel grid resolution. Computing separate voxel features uses bilinear interpolation: fh = ∪l Π interp(Rl(i,j)), and a tiny MLP merges all features: fd = φd(fh).
鄰近的三維高斯總是共享相似的空間與時間資訊。時空結構編碼器包含多解析度 HexPlane R_l(i,j) 與一個輕量 MLP φ_d。由於原始的四維神經體素十分耗費記憶體,本方法採用四維 K-Planes 模組將四維神經體素分解為六個平面。編碼器包含六個多解析度平面模組與一個輕量 MLP。每個體素模組 R(i,j) 的維度為 h x lN_i x lN_j,其中 h 為特徵隱藏維度,N 為基礎體素網格解析度。各體素特徵透過雙線性內插分別計算:f_h = ∪ Π interp(R_l(i,j)),再以輕量 MLP 合併所有特徵:f_d = φ_d(f_h)。
段落功能
核心技術細節——描述時空結構編碼器的 HexPlane 分解機制。
邏輯角色
此段是全文方法論的支柱:HexPlane 分解將四維體素的記憶體需求從 O(N^4) 降至 O(N^2) 的六倍,直接實現了「緊湊表示」的核心承諾。多解析度設計則兼顧粗粒度運動與細粒度細節。
論證技巧 / 潛在漏洞
HexPlane 分解是對已有技術(K-Planes、TensoRF)的成熟借用而非全新發明,但作者將其巧妙嫁接至高斯潑灑框架。潛在問題在於分解假設四維資訊可由六個二維平面的乘積良好近似——對高度非線性的運動(如急轉、碰撞),此假設可能不成立。
When all Gaussian features are encoded, the multi-head Gaussian deformation decoder computes desired variables: D = {φx, φr, φs}. Separate MLPs compute deformations for each attribute: position deformation ΔX = φx(fd), rotation deformation Δr = φr(fd), and scaling deformation Δs = φs(fd). The deformed features become: (X', r', s') = (X + ΔX, r + Δr, s + Δs). Final deformed 3D Gaussians are: G' = {X', s', r', σ, C}. Note that opacity σ and color C remain unchanged, with deformation only applied to geometric attributes — position, rotation, and scaling.
當所有高斯特徵編碼完畢後,多頭高斯變形解碼器計算所需的變數:D = {φ_x, φ_r, φ_s}。各屬性的變形由獨立的 MLP 分別計算:位置變形 ΔX = φ_x(f_d)、旋轉變形 Δr = φ_r(f_d)、縮放變形 Δs = φ_s(f_d)。變形後的屬性為:(X', r', s') = (X + ΔX, r + Δr, s + Δs)。最終變形後的三維高斯為:G' = {X', s', r', σ, C}。值得注意的是,不透明度 σ 與顏色 C 保持不變,變形僅施加於幾何屬性——位置、旋轉與縮放。
段落功能
解碼器設計——闡述如何從編碼特徵預測三種幾何變形。
邏輯角色
此段完成了「編碼-解碼」管線的後半段。三頭分離設計使得各幾何屬性的學習互不干擾,符合物理直覺——平移、旋轉、縮放本是獨立的變換。
論證技巧 / 潛在漏洞
不變形不透明度與顏色是一項重要的簡化假設——在真實動態場景中,光照變化會導致外觀改變。此設計選擇犧牲了部分表達能力以換取穩定性和效率,但在光照劇變的場景中可能成為品質瓶頸。
4.3 Optimization — 最佳化
3D Gaussian initialization is critical. 3D Gaussians can be well-trained with structure from motion (SfM) points initialization. Similarly, 4D Gaussians require proper 3D Gaussian initialization. The method optimizes 3D Gaussians at the initial 3000 iterations for warm-up and then renders images with 3D Gaussians I = S(M, G) instead of 4D Gaussians. This warm-up strategy provides three benefits: (a) making some 3D Gaussians stay in the dynamic part, which releases the pressure of large deformation learning; (b) learning proper 3D Gaussians and suggesting deformation fields to pay more attention to the dynamic part; (c) avoiding numeric errors. For the loss function, the method uses L1 color loss combined with a grid-based total-variational loss Ltv: L = |I - Igt| + Ltv.
三維高斯的初始化至關重要。三維高斯可透過運動恢復結構(SfM)點進行良好的初始化訓練。同樣地,四維高斯需要適當的三維高斯初始化。本方法在前 3000 次迭代中先最佳化三維高斯作為暖身,此階段以三維高斯 I = S(M, G) 而非四維高斯進行算繪。此暖身策略帶來三項好處:(a) 使部分三維高斯駐留於動態區域,減輕大幅變形學習的壓力;(b) 學習適當的三維高斯並引導變形場更關注動態部分;(c) 避免數值錯誤。損失函數方面,本方法使用 L1 顏色損失結合基於網格的全變分損失 L_tv:L = |I - I_gt| + L_tv。
段落功能
訓練策略說明——闡述暖身初始化的設計動機與損失函數組成。
邏輯角色
此段從實作層面補足方法論的完整性。暖身策略本質上是一種課程學習——先學靜態結構、再學動態變形,降低了聯合最佳化的難度。
論證技巧 / 潛在漏洞
以三項條列式好處論證暖身策略的必要性,結構清晰。但 3000 次迭代的閾值似為經驗值,作者未提供此超參數的敏感度分析。此外,L1 損失+全變分損失是相對保守的組合,未採用感知損失(如 LPIPS)可能限制生成品質。
5. Experiments — 實驗
Implementation uses the PyTorch framework tested on a single RTX 3090 GPU. The model is primarily assessed using synthetic datasets introduced by D-NeRF, designed for monocular settings with camera poses for each timestamp close to randomly generated. Each scene contains dynamic frames ranging from 50 to 200 frames. For real-world evaluation, the study utilizes datasets provided by HyperNeRF and Neu3D as benchmarks. Assessment uses various metrics: peak-signal-to-noise ratio (PSNR), perceptual quality measure LPIPS, structural similarity index (SSIM), as well as DSSIM, MS-SSIM, FPS, training times, and storage. Benchmarking against state-of-the-art methods shows the proposed approach achieves highest rendering quality within the synthetic dataset and exceptionally fast rendering speeds while keeping extremely low storage consumption and convergence time.
實作使用 PyTorch 框架,在單張 RTX 3090 GPU 上進行測試。模型主要以 D-NeRF 所引入的合成資料集進行評估,該資料集專為單目設定設計,各時間戳的相機姿態接近隨機生成。每個場景包含 50 至 200 幀的動態畫面。在真實世界評估方面,研究採用 HyperNeRF 與 Neu3D 提供的資料集作為基準。評估指標涵蓋:峰值訊噪比(PSNR)、感知品質指標 LPIPS、結構相似性指數(SSIM),以及 DSSIM、MS-SSIM、FPS、訓練時間與儲存空間。與最先進方法的基準比較顯示,本方法在合成資料集上達到最高的算繪品質,且在維持極低儲存消耗與收斂時間的同時,達到極高的算繪速度。
段落功能
實驗設定與定量結果——交代硬體環境、資料集、評估指標與整體表現。
邏輯角色
此段是實證支柱,覆蓋四個維度的驗證:(1) 合成場景品質;(2) 真實場景泛化性;(3) 速度基準;(4) 儲存效率。多面向評估增強了結論的可信度。
論證技巧 / 潛在漏洞
使用 D-NeRF 的合成資料集確保了公平比較,但合成場景的運動模式相對簡單。「最高算繪品質」的宣稱僅限於合成資料集——真實世界場景的表現措辭更為保守(「comparable」),暗示在真實場景品質上可能不具明顯優勢。
Real-world dataset results show that some NeRFs suffer from slow convergence speed, while other grid-based NeRF methods encounter difficulties when attempting to capture intricate object details. The proposed method achieves comparable rendering quality, fast convergence, and excels in free-view rendering speed in indoor cases. The study further demonstrates that if the rendered points are lower than 30,000, the rendering speed can be up to 90 FPS. Achieving real-time rendering requires balancing among all the rendering resolutions and 4D Gaussian representation. The explicit Gaussian representation also enables composition with different 4D Gaussians — different models can be composed following their individually trained deformation fields, similar to Dynamic3DGS.
真實世界資料集的結果顯示,部分 NeRF 方法受困於緩慢的收斂速度,而其他基於網格的 NeRF 方法在嘗試捕捉精細物件細節時遭遇困難。本方法達到了可比擬的算繪品質與快速收斂,在室內場景的自由視角算繪速度上尤為突出。研究進一步指出,當算繪點數低於三萬時,算繪速度可達每秒 90 幀。實現即時算繪需要在算繪解析度與四維高斯表示之間取得平衡。顯式的高斯表示還支援不同四維高斯之間的組合——不同模型可依循各自訓練的變形場進行組合,類似於 Dynamic3DGS。
段落功能
真實場景驗證與附加應用——展示真實資料集表現與場景組合能力。
邏輯角色
此段補充實驗的生態效度:合成資料集的優異表現能否遷移至真實世界?答案是「品質持平、速度領先」——這對實際部署而言是強有力的論據。
論證技巧 / 潛在漏洞
「comparable rendering quality」的措辭相較合成場景的「highest」顯著降級,暗示真實場景的品質可能並未超越所有基線。30,000 點的速度閾值提供了實用參考,但未探討此限制下的品質降級幅度。場景組合功能的展示增添了方法的應用價值,但缺乏量化評估。
5.3 Ablation Study — 消融研究
The explicit HexPlane encoder Rl(i,j) possesses the capacity to retain 3D Gaussians' spatial and temporal information. Removing this module reveals that using only a shallow MLP φd falls short in modeling complex deformations across various settings. For the Gaussian deformation decoder, all changes in 3D Gaussians can be explained by separate MLPs {φx, φr, φs}. Results show 4D Gaussians cannot fit dynamic scenes well without modeling 3D Gaussian motion. Additionally, the movement of human body joints is typically manifested as stretching and twisting of surface details, making size and shape adjustments necessary alongside position changes. Training without warmup initialization causes convergence difficulty, confirming the warmup strategy's three benefits: distributing Gaussians to dynamic regions, guiding the deformation field's focus, and avoiding numeric errors.
顯式 HexPlane 編碼器 R_l(i,j) 具備保留三維高斯空間與時間資訊的能力。移除此模組後發現,僅使用淺層 MLP φ_d 不足以在各種設定下建模複雜的變形。就高斯變形解碼器而言,三維高斯的所有變化皆可由獨立的 MLP {φ_x, φ_r, φ_s} 解釋。結果顯示,四維高斯在未建模三維高斯運動的情況下無法良好擬合動態場景。此外,人體關節的運動通常表現為表面細節的拉伸與扭轉,因此除了位置變化外,尺寸與形狀的調整亦不可或缺。未經暖身初始化的訓練會導致收斂困難,此結果證實了暖身策略的三項益處:將高斯分布至動態區域、引導變形場的關注焦點,以及避免數值錯誤。
段落功能
組件驗證——以系統性消融實驗證明每個模組的必要性。
邏輯角色
此段直接回應緒論中三項貢獻的有效性:(1) HexPlane 編碼器 vs. 純 MLP;(2) 多頭解碼器中各變形維度的貢獻;(3) 暖身策略的不可或缺性。每項消融均以定量劣化作為反面證據。
論證技巧 / 潛在漏洞
消融研究的覆蓋面廣且邏輯嚴謹——每移除一個組件即觀測到顯著劣化。然而,消融是在合成資料集上進行的,真實場景中各組件的相對重要性可能不同。此外,缺少超參數敏感度分析(如 HexPlane 解析度、MLP 深度)。
Though 4D-GS can indeed attain rapid convergence and yield real-time rendering outcomes in many scenarios, there are a few key challenges. Large motions, absent background points, and imprecise camera poses cause optimization difficulty. Additionally, it is still challenging for 4D-GS to split the joint motion of static and dynamic Gaussian parts under monocular settings. Finally, a more compact algorithm needs to be designed to handle urban-scale reconstruction. The method's tracking capability in 3D is demonstrated with pretty low storage — approximately 10 MB in 3D Gaussians G and 8 MB in the Gaussian deformation field network F.
儘管 4D-GS 確實能在許多場景中達到快速收斂並產出即時算繪結果,仍存在若干關鍵挑戰。大幅運動、缺失的背景點以及不精確的相機姿態會導致最佳化困難。此外,在單目設定下分離靜態與動態高斯部分的聯合運動仍具挑戰性。最後,處理城市尺度重建需要設計更緊湊的演算法。該方法以極低的儲存量展示了三維追蹤能力——三維高斯 G 約 10 MB,高斯變形場網路 F 約 8 MB。
段落功能
坦承局限——誠實列舉方法的適用邊界與未解決問題。
邏輯角色
此段展現學術誠信:主動揭示三類失敗模式(大運動、靜動分離、大尺度場景),為後續研究指明方向。同時以具體儲存數據(10+8 MB)證明方法的緊湊性。
論證技巧 / 潛在漏洞
坦承局限性是加分項,但三項限制中「大運動」與「靜動分離」是動態場景方法的通病,並非 4D-GS 獨有。作者可藉此機會更深入分析本方法特有的失敗模式,而非僅列舉共性問題。18 MB 的總儲存極為輕量,是有力的工程論據。
6. Conclusion — 結論
This paper proposes 4D Gaussian Splatting to achieve real-time dynamic scene rendering. An efficient deformation field network is constructed to accurately model Gaussian motions and shape deformations, where adjacent Gaussians are connected via a spatial-temporal structure encoder. The method combines multi-resolution HexPlane decomposition with lightweight multi-head decoders to predict position, rotation, and scaling deformations from a single canonical Gaussian set. Experiments across both synthetic and real-world benchmarks demonstrate the method's advantages in rendering speed, training efficiency, and storage compactness. The approach also shows potential for 4D object tracking and editing, suggesting broader applications beyond novel view synthesis.
本文提出四維高斯潑灑以實現動態場景的即時算繪。本方法建構了一個高效的變形場網路,精確建模高斯的運動與形狀變形,其中鄰近高斯透過時空結構編碼器加以連結。方法結合多解析度 HexPlane 分解與輕量多頭解碼器,從單一正規高斯集預測位置、旋轉與縮放的變形。在合成與真實世界基準上的實驗展示了該方法在算繪速度、訓練效率與儲存緊湊性方面的優勢。此方法亦展現了在四維物件追蹤與編輯方面的潛力,暗示超越新視角合成的更廣泛應用。
段落功能
總結全文——精煉地重述核心方法、實驗結論與未來展望。
邏輯角色
結論段呼應摘要的結構,形成完整的論證閉環:從「動態場景即時算繪的挑戰」出發,以「4D-GS 同時實現速度、品質與緊湊性」收束,並以追蹤與編輯的應用展望向外延伸。
論證技巧 / 潛在漏洞
結論簡潔有力,但未回顧局限性章節提出的三項挑戰,使結尾偏向樂觀。「4D 物件追蹤與編輯」的展望吸引人,但在論文中僅做了初步展示而非嚴謹驗證,可能過度承諾方法的應用範圍。
論證結構總覽
問題
動態場景算繪需兼顧
品質、速度與儲存效率
動態場景算繪需兼顧
品質、速度與儲存效率
→
論點
正規高斯+變形場
實現即時動態算繪
正規高斯+變形場
實現即時動態算繪
→
證據
合成/真實資料集
82 FPS、PSNR 領先
合成/真實資料集
82 FPS、PSNR 領先
→
反駁
HexPlane 分解降低記憶體
暖身策略穩定收斂
HexPlane 分解降低記憶體
暖身策略穩定收斂
→
結論
4D-GS 可擴展至
追蹤與場景編輯
4D-GS 可擴展至
追蹤與場景編輯
作者核心主張(一句話)
透過維護單一正規三維高斯集並以 HexPlane 分解式時空編碼器驅動的變形場預測各時間戳的幾何變化,4D-GS 在動態場景中同時實現了即時算繪速度、高品質視覺輸出與極低儲存消耗。
論證最強處
效率與品質的兼得:以 HexPlane 分解將四維體素的記憶體需求從 O(N4) 降至六個 O(N2) 平面的組合,同時保留了足夠的表達能力。正規高斯+增量變形的設計使得儲存複雜度從 O(t*N) 降至 O(N+F),且消融研究嚴謹地驗證了每個組件(HexPlane、多頭解碼器、暖身策略)的不可或缺性。82 FPS 的即時算繪在當時遠超所有動態 NeRF 方法。
論證最弱處
真實場景泛化性不足:合成資料集上的「最高品質」在真實場景中降格為「可比擬品質」,暗示方法在面對不精確相機姿態、複雜光照與大幅運動時的穩健性有限。不透明度與顏色不隨時間變形的簡化假設,限制了對光照動態變化場景的表達能力。此外,單目設定下靜動分離的困難是一個根本性限制,但論文對此僅在限制章節簡略提及,未嘗試任何緩解策略。