Abstract — 摘要
Recently, 3D Gaussian Splatting has demonstrated impressive novel view synthesis results, reaching high fidelity and efficiency. However, strong artifacts can be observed when changing the sampling rate, e.g., by changing focal length or camera distance. We find that the source for this phenomenon can be attributed to the lack of 3D frequency constraints and the usage of a 2D dilation filter. To address this problem, we introduce a 3D smoothing filter which constrains the size of the 3D Gaussian primitives based on the maximal sampling frequency induced by the input views, eliminating high-frequency artifacts when zooming in. Moreover, replacing 2D dilation with a 2D Mip filter, which effectively approximates a box filter for mipmap-style rendering, allows us to antialias and remove dilation artifacts simultaneously. Our evaluation on both standard benchmarks and out-of-distribution test conditions demonstrates the effectiveness of our approach on scenes with multiple sampling rates.
近期,3D 高斯潑灑(3D Gaussian Splatting)展現了令人印象深刻的新視角合成成果,兼具高保真度與高效率。然而,當取樣率改變時(例如改變焦距或攝影機距離),會觀察到明顯的偽影。我們發現此現象的根源可歸因於缺乏三維頻率約束以及使用二維膨脹濾波器。為解決此問題,我們引入一個三維平滑濾波器,依據輸入視角所誘發的最大取樣頻率來約束 3D 高斯基元的大小,消除放大時的高頻偽影。此外,以二維 Mip 濾波器取代二維膨脹,有效近似成像過程中的方盒濾波,同時解決鋸齒與膨脹偽影。我們在標準基準測試與分布外測試條件上的評估,驗證了本方法在多重取樣率場景中的有效性。
段落功能
全文總覽——以「成就-問題-解方」三段式結構概述 Mip-Splatting 的研究動機與貢獻。
邏輯角色
摘要同時承擔「問題診斷」與「方案預告」功能:先肯定 3DGS 的效能,再精準定位兩個技術缺陷(3D 頻率約束不足、2D 膨脹濾波不當),最後預告雙重濾波方案。
論證技巧 / 潛在漏洞
作者以訊號處理的頻率語言框定問題,賦予解方堅實的理論基礎。但「消除高頻偽影」的主張需在實驗中以定量指標驗證——尤其是在極端取樣率變化下的穩健性。
1. Introduction — 緒論
Novel view synthesis (NVS) plays a critical role in computer graphics and computer vision, with various applications including virtual reality, cinematography, robotics, and more. Neural Radiance Fields (NeRF) represented a significant advancement, but 3D Gaussian Splatting (3DGS) has emerged as an appealing alternative, offering impressive novel view synthesis results, while achieving real-time rendering at high resolutions. This effectiveness and efficiency, coupled with the potential integration into the standard rasterization pipeline of GPUs, represents a significant step towards practical usage of NVS methods.
新視角合成在電腦圖學與電腦視覺中扮演關鍵角色,廣泛應用於虛擬實境、電影製作、機器人等領域。神經輻射場(NeRF)曾代表一次重大突破,但 3D 高斯潑灑(3DGS)作為極具吸引力的替代方案脫穎而出,在達成即時高解析度渲染的同時,展現令人印象深刻的新視角合成成果。這種兼具效能與效率的特性,加上與 GPU 標準光柵化管線整合的潛力,代表了新視角合成方法邁向實際應用的重要一步。
段落功能
建立研究場域——從新視角合成的廣泛應用出發,定位 3DGS 為當前最具前景的方法。
邏輯角色
論證鏈起點:先以 NeRF 作為里程碑,再將 3DGS 定位為「更好的替代」,為後續指出其缺陷製造反差效果。
論證技巧 / 潛在漏洞
以「即時渲染」與「GPU 管線整合」兩大實用優勢建立 3DGS 的正面形象,使後續的缺陷揭露更具戲劇性。但此處略去了 3DGS 在記憶體使用方面的已知問題。
However, 3DGS produces artifacts when camera views diverge from training views. We find that the source for this phenomenon can be attributed to the lack of 3D frequency constraints and the usage of a 2D dilation filter. Specifically, zooming out leads to a reduced size of the projected 2D Gaussians in screen space, while applying the same amount of dilation results in dilation artifacts. Conversely, zooming in reveals high-frequency artifacts because the optimization systematically underestimates the scale parameter of 3D Gaussians due to the implicit shrinkage bias introduced by the dilation operation.
然而,當攝影機視角偏離訓練視角時,3DGS 會產生偽影。我們發現此現象的根源可歸因於缺乏三維頻率約束以及使用二維膨脹濾波器。具體而言,縮小視角會使投影後的二維高斯在螢幕空間中尺寸縮小,而施加相同程度的膨脹則導致膨脹偽影。反之,放大時會暴露高頻偽影,因為膨脹操作引入的隱式收縮偏差導致最佳化過程系統性地低估 3D 高斯的尺度參數。
段落功能
問題診斷——精準定位 3DGS 的兩個技術缺陷及其成因機制。
邏輯角色
從上段的「3DGS 很好」轉折至「但有根本缺陷」,形成典型的「雖然...但是...」論證結構。雙向分析(縮小/放大)展示了問題的全面性。
論證技巧 / 潛在漏洞
將「膨脹操作」同時視為放大與縮小偽影的元凶,邏輯上非常有力——單一根因解釋雙重現象。「隱式收縮偏差」的洞見特別深刻,揭示了最佳化過程中的系統性偏差。
Our key insight is that the highest frequency that can be reconstructed of a 3D scene is inherently constrained by the sampling rates of the input images. Based on this, we derive multi-view frequency bounds of each Gaussian primitive according to the Nyquist-Shannon Sampling Theorem and introduce a 3D smoothing filter that constrains Gaussian sizes accordingly. For rendering at lower sampling rates, we further introduce a 2D Mip filter specifically designed to ensure alias-free reconstruction and rendering across different scales. Our closed-form modification to the 3D Gaussian representation results in excellent out-of-distribution generalization: training at a single sampling rate enables faithful rendering at various sampling rates.
我們的關鍵洞見在於:三維場景可重建的最高頻率本質上受限於輸入影像的取樣率。基於此,我們根據奈奎斯特-夏農取樣定理推導每個高斯基元的多視角頻率邊界,並引入三維平滑濾波器以相應約束高斯尺寸。為了在較低取樣率下渲染,我們進一步引入二維 Mip 濾波器,專門設計以確保跨尺度的無鋸齒重建與渲染。我們對 3D 高斯表示的封閉式修改帶來了卓越的分布外泛化能力:在單一取樣率下訓練即可在各種取樣率下忠實渲染。
段落功能
提出解決方案——以訊號處理理論為基礎,概述雙重濾波架構。
邏輯角色
承接問題診斷,此段扮演「轉折」角色。奈奎斯特定理提供了理論根基,使解方不僅是工程技巧,而是具有訊號處理理論保證的原則性修正。
論證技巧 / 潛在漏洞
「封閉式修改」與「單一取樣率訓練即可多尺度渲染」的主張極具吸引力,暗示方法的簡潔性與泛化性。但奈奎斯特定理的適用前提是訊號為帶限訊號,而自然場景是否嚴格滿足此條件值得商榷。
2. Related Work — 相關工作
NeRF utilizes multilayer perceptrons (MLPs) to model scenes as continuous functions, which, despite their compact representation, impede rendering speed due to the expensive MLP evaluation required for each ray point. Subsequent work has focused on improving the training and rendering of NeRF with advanced scene representations. 3D Gaussian Splatting (3DGS) demonstrated impressive novel view synthesis results while achieving real-time rendering at high-definition resolutions. Importantly, 3DGS represents the scene explicitly as a collection of 3D Gaussians and uses rasterization instead of ray tracing. Nevertheless, 3DGS focuses on in-distribution evaluation where training and testing are conducted at similar sampling rates.
NeRF 利用多層感知器將場景建模為連續函數,儘管表示方式緊湊,卻因每個光線採樣點都需要昂貴的 MLP 運算而拖累渲染速度。後續工作致力於透過先進的場景表示改進 NeRF 的訓練與渲染。3D 高斯潑灑在達成高畫質即時渲染的同時,展現了令人印象深刻的新視角合成成果。值得注意的是,3DGS 以 3D 高斯集合顯式表示場景,並使用光柵化而非光線追蹤。然而,3DGS 聚焦於分布內評估,訓練與測試在相似的取樣率下進行。
段落功能
文獻回顧——梳理從 NeRF 到 3DGS 的技術演進,指出 3DGS 的評估盲點。
邏輯角色
建立學術脈絡:NeRF 的效率問題催生了 3DGS,但 3DGS 的「分布內評估」習慣掩蓋了取樣率泛化的缺陷。此處為本文的研究貢獻找到了精確的學術定位。
論證技巧 / 潛在漏洞
「分布內評估」的批評精準且公允——3DGS 原始論文確實未系統性測試跨尺度泛化。但作者也未提及同期其他已嘗試解決此問題的工作,可能低估了研究社群的同步進展。
There are two principal strategies to combat aliasing: super-sampling, which increases the number of samples, and prefiltering, which applies low-pass filtering to the signal to meet the Nyquist limit. While Mip-NeRF and Tri-MipRF have addressed aliasing in NeRF-based methods, these approaches require multi-scale images for supervision. In contrast, our approach is based on 3DGS and determines the necessary low-pass filter size based on pixel size, allowing for alias-free rendering at scales unobserved during training. While our band-limited filter shares similarities with the EWA filter, their underlying principles are distinct: the EWA filter's role is to limit the frequency signal's bandwidth with an empirically chosen filter size, whereas our Mip filter is designed to replicate the box filter in the imaging process, targeting an exact approximation of a single pixel.
對抗鋸齒有兩種主要策略:超取樣(增加樣本數量)與預濾波(對訊號施加低通濾波以滿足奈奎斯特極限)。儘管 Mip-NeRF 與 Tri-MipRF 已在 NeRF 框架下處理鋸齒問題,但這些方法需要多尺度影像作為監督。相比之下,我們的方法基於 3DGS,根據像素大小決定所需的低通濾波器尺寸,實現在訓練期間未觀察之尺度下的無鋸齒渲染。雖然我們的帶限濾波器與 EWA 濾波器有相似之處,但其底層原理截然不同:EWA 濾波器的角色是以經驗選擇的濾波器尺寸限制頻率訊號頻寬,而我們的 Mip 濾波器則設計為複製成像過程中的方盒濾波,目標是精確近似單一像素。
段落功能
差異化定位——將本方法與既有反鋸齒技術區隔,尤其釐清與 EWA 濾波的本質差異。
邏輯角色
預防性反駁:讀者可能質疑「這不就是 EWA 濾波嗎?」或「Mip-NeRF 已經解決了」。此段以兩個維度回應:(1) 無需多尺度監督;(2) 與 EWA 的原理層級差異。
論證技巧 / 潛在漏洞
「複製成像過程中的方盒濾波」是物理啟發的論述,比 EWA 的經驗性方法更具理論說服力。但方盒濾波的高斯近似本身也是一種妥協,近似品質會影響最終效果。
3. Preliminaries — 預備知識
The Nyquist-Shannon Sampling Theorem is a fundamental concept in signal processing that describes the conditions under which a continuous signal can be accurately represented or reconstructed from its discrete samples. Two conditions must be met: Condition 1 — the continuous signal must be band-limited and may not contain any frequency components above a certain maximum frequency; Condition 2 — the sampling rate must be at least twice the highest frequency present in the continuous signal. To satisfy these constraints when reconstructing a signal from discrete samples, a low-pass or anti-aliasing filter is applied to the signal before sampling.
奈奎斯特-夏農取樣定理是訊號處理中的基本概念,描述連續訊號在何種條件下能被其離散樣本準確表示或重建。必須滿足兩個條件:條件一——連續訊號必須是帶限的,不得包含超過某個最大頻率的頻率成分;條件二——取樣率必須至少為訊號中最高頻率的兩倍。為在從離散樣本重建訊號時滿足這些約束,需在取樣前對訊號施加低通或反鋸齒濾波器。
段落功能
理論基礎鋪墊——引入取樣定理作為後續方法的數學根基。
邏輯角色
此段為全文方法論提供理論錨點:後續的 3D 平滑濾波直接對應條件一(帶限約束),2D Mip 濾波對應條件二(取樣率匹配)。
論證技巧 / 潛在漏洞
以經典訊號處理理論為起點,賦予方法嚴格的理論正當性。但取樣定理假設的是均勻取樣與一維訊號,直接套用至三維場景的非均勻多視角取樣需要額外的數學論證。
3D Gaussian Splatting uses a set of scaled 3D Gaussian primitives and renders an image using volume splatting. The geometry of each scaled 3D Gaussian is parameterized by an opacity alpha, center p, and covariance matrix Sigma defined in world space. To ensure valid covariance matrices, a semi-definite parameterization via rotation matrix and scale vector is used. The 3D Gaussians are first transformed into camera coordinates, then projected to ray space via a local affine transformation. 3DGS utilizes spherical harmonics to model view-dependent color and renders images via alpha blending according to the primitive's depth order. To avoid degenerate cases where projected 2D Gaussians are too small in screen space, the projected 2D Gaussians are dilated — this operator adjusts the scale of the 2D Gaussian while leaving its maximum unchanged.
3D 高斯潑灑使用一組縮放的 3D 高斯基元,透過體積潑灑來渲染影像。每個 3D 高斯的幾何由不透明度、中心座標及世界空間中定義的共變異數矩陣參數化。為確保共變異數矩陣的有效性,使用旋轉矩陣與尺度向量的半正定參數化。3D 高斯先被轉換至攝影機座標,再透過局部仿射變換投影至光線空間。3DGS 利用球面諧波建模視角相依的顏色,並依據基元的深度排序透過 alpha 混合進行渲染。為避免投影後的 2D 高斯在螢幕空間中過小的退化情形,投影的 2D 高斯會被膨脹——此運算子調整 2D 高斯的尺度但保持其最大值不變。
段落功能
技術背景——完整描述 3DGS 的渲染管線,為後續修改提供基線。
邏輯角色
此段建立「待修改的基線系統」——讀者需理解原始 3DGS 的每個組件,才能理解 Mip-Splatting 的修改位置與原因。尤其是膨脹操作的描述,直接伏筆後續的問題分析。
論證技巧 / 潛在漏洞
「調整尺度但保持最大值不變」的描述精準地揭示了膨脹操作的本質——它並非真正的物理濾波,而只是一種防止退化的工程權宜之計。此伏筆為第四章的問題分析做了巧妙鋪墊。
4. Sensitivity to Sampling Rate — 取樣率敏感性
We observe that this optimization suffers from ambiguities: in traditional forward splatting, the centers and colors of Gaussian primitives are predetermined, whereas the 3D Gaussian covariance are chosen empirically. Due to screen space dilation with a Gaussian kernel (size approximately 1 pixel), the degenerate 3D Gaussian represented by a Dirac delta function leads to a similar image. In practice, due to its implicit shrinkage bias, 3DGS indeed systematically underestimates the scale parameter of 3D Gaussians during optimization. This leads to erosion effects when zooming in — the dilated 2D Gaussians become smaller in screen space, and the rendered image exhibits high-frequency artifacts, rendering object structures thinner than they actually appear.
我們觀察到此最佳化過程存在模糊性問題:在傳統前向潑灑中,高斯基元的中心與顏色是預定的,而 3D 高斯共變異數是經驗性選擇的。由於螢幕空間膨脹使用大小約一個像素的高斯核,以狄拉克 delta 函數表示的退化 3D 高斯會產生相似的影像。實際上,由於隱式收縮偏差,3DGS 在最佳化過程中確實系統性地低估了 3D 高斯的尺度參數。這導致放大時出現侵蝕效應——膨脹後的 2D 高斯在螢幕空間中變得更小,渲染影像呈現高頻偽影,物件結構看起來比實際更薄。
段落功能
問題深度剖析——揭示膨脹操作如何在最佳化中引入系統性偏差。
邏輯角色
此段是全文最關鍵的分析洞見:將表面的「偽影」現象追溯至「尺度模糊性」的根因。狄拉克 delta 函數的例子以極端情形說明了問題的嚴重性。
論證技巧 / 潛在漏洞
以反事實推理(退化高斯+膨脹產生相同影像)有力地論證了模糊性問題的存在。「系統性低估」的實證觀察為理論分析提供了經驗支撐。但「侵蝕效應」的量化程度因場景複雜度而異,此處缺少定量分析。
Screen space dilation also negatively affects rendering when decreasing the sampling rate: dilation spreads radiance in a physically incorrect way across pixels, resulting in visible dilation artifacts at lower resolutions. Simply discarding screen space dilation results in optimization challenges for complex scenes, such as those present in the Mip-NeRF 360 dataset, where a large number of small Gaussians are created by the density control mechanism. This creates a dilemma: the dilation operation is necessary for stable optimization, yet it introduces artifacts at non-training sampling rates.
螢幕空間膨脹在降低取樣率時同樣產生負面影響:膨脹以物理上不正確的方式將輻射能量擴散到相鄰像素,導致在低解析度下出現可見的膨脹偽影。然而,單純移除螢幕空間膨脹又會為複雜場景的最佳化帶來困難——例如在 Mip-NeRF 360 資料集中,密度控制機制會產生大量的小型高斯。這造成了一個兩難:膨脹操作對穩定最佳化而言不可或缺,卻在非訓練取樣率下引入偽影。
段落功能
深化困境——揭示「移除膨脹」並非簡單的解決方案,凸顯問題的非平凡性。
邏輯角色
此段預防讀者產生「直接拿掉膨脹不就好了」的直覺反應,強調問題需要更精細的解方。兩難結構為後續引入替代方案(Mip 濾波)製造了論證空間。
論證技巧 / 潛在漏洞
「兩難」的修辭非常有效——它不僅展示作者對問題的深入理解,也暗示解方需要在維持最佳化穩定性與消除偽影之間取得平衡。Mip-NeRF 360 資料集的引用為此論證提供了具體的實證基礎。
5. Mip Gaussian Splatting — 方法
5.1 3D Smoothing Filter — 三維平滑濾波器
3D radiance field reconstruction from multi-view observations is a well-known ill-posed problem as multiple distinctly different reconstructions can result in the same 2D projections. Our key insight is that the highest frequency of a reconstructed 3D scene is limited by the sampling rate defined by the training views. A pixel corresponds to a sampling interval; when this pixel interval is back-projected to the 3D world space, it results in a world space sampling interval at a given depth d, with sampling frequency as its inverse. Given samples drawn at this frequency, reconstruction algorithms are able to reconstruct components of the signal with frequencies up to half the sampling frequency, following the Nyquist limit.
從多視角觀測重建三維輻射場是一個公認的不適定問題,因為多種截然不同的重建可能產生相同的二維投影。我們的關鍵洞見在於:重建之三維場景的最高頻率受限於訓練視角所定義的取樣率。一個像素對應一個取樣間隔;當此像素間隔被反投影至三維世界空間時,會在給定深度 d 處產生一個世界空間取樣間隔,其取樣頻率為此間隔的倒數。根據此頻率取樣的樣本,重建演算法能夠重建頻率不超過取樣頻率一半的訊號成分,遵循奈奎斯特極限。
段落功能
方法推導第一步——建立從像素間隔到三維頻率邊界的數學對應。
邏輯角色
此段將抽象的取樣定理具體化為三維重建的約束:像素大小決定取樣間隔,取樣間隔的反投影決定世界空間頻率上限。這是連接訊號處理理論與 3DGS 實作的關鍵橋樑。
論證技巧 / 潛在漏洞
從「不適定問題」出發為引入約束提供了天然的動機——約束越多,解的模糊性越低。但反投影假設相機為針孔模型,且忽略了遮擋效應對有效取樣率的影響,這在密集場景中可能不成立。
Since the sampling rate of a primitive is depth-dependent and differs across cameras, we determine the maximal sampling rate for primitive k as the maximum across all cameras, considering an indicator function assessing visibility. Given the maximal sampling rate for a primitive, we aim to constrain the maximal frequency of the 3D representation. This is achieved by applying a Gaussian low-pass filter to each 3D Gaussian primitive before projecting it onto screen space. This operation is efficient as convolving two Gaussians results in another Gaussian with variance equal to the sum of the two covariance matrices. The 3D smoothing adds a scaled identity term to the original covariance, where the scale depends inversely on the maximal sampling rate. By employing 3D Gaussian smoothing, we ensure that the highest frequency component of any Gaussian does not exceed half of its maximal sampling rate. Note that the low-pass filter becomes an intrinsic part of the 3D representation, remaining constant post-training.
由於基元的取樣率與深度相依且因攝影機而異,我們將基元 k 的最大取樣率定義為所有攝影機中的最大值,並考慮評估可見性的指示函數。給定基元的最大取樣率,我們的目標是約束三維表示的最大頻率。此目標透過在投影至螢幕空間之前,對每個 3D 高斯基元施加高斯低通濾波器來實現。此運算高效,因為兩個高斯的摺積結果仍為高斯,其變異數等於兩個共變異數矩陣之和。三維平滑操作對原始共變異數加上一個按比例縮放的單位項,其縮放因子與最大取樣率成反比。透過三維高斯平滑,我們確保任何高斯的最高頻率成分不超過其最大取樣率的一半。值得注意的是,此低通濾波器成為三維表示的固有部分,在訓練後保持不變。
段落功能
核心演算法——完整描述 3D 平滑濾波器的設計、實現與數學性質。
邏輯角色
此段是全文方法論的支柱。高斯摺積的封閉式解(變異數相加)使得濾波操作既有理論保證又有計算效率——這是方法能被實際採用的關鍵。
論證技巧 / 潛在漏洞
「兩個高斯摺積仍為高斯」是本方法最優美的數學性質——它確保了濾波不會改變表示的函數族,因此無需修改渲染管線。「訓練後不變」的特性則保證了推論時的零額外開銷。但以所有攝影機的最大取樣率為約束可能過於保守,導致在某些視角下過度平滑。
5.2 2D Mip Filter — 二維 Mip 濾波器
While our 3D smoothing filter effectively mitigates high-frequency artifacts, rendering the reconstructed scene at lower sampling rates would still lead to aliasing. We replicate the physical imaging process, where photons hitting a pixel on the camera sensor are integrated over the pixel's area. While an ideal model would use a 2D box filter in image space, we approximate it with a 2D Gaussian filter for efficiency. The 2D Mip filter is applied in screen space with parameter s chosen to cover a single pixel in screen space. A critical difference to EWA splatting is that we tackle the reconstruction problem, optimizing the 3D Gaussian representation via inverse rendering, while EWA splatting only considers the forward rendering problem.
雖然我們的三維平滑濾波器有效緩解了高頻偽影,但在較低取樣率下渲染重建場景仍會導致鋸齒。我們複製了物理成像過程——光子撞擊攝影機感測器像素時,其能量在像素面積上進行積分。理想模型應使用二維方盒濾波,但為了效率,我們以二維高斯濾波器近似之。二維 Mip 濾波器在螢幕空間中施加,參數 s 被選取以覆蓋螢幕空間中的單一像素。與 EWA 潑灑的關鍵差異在於:我們處理的是重建問題,透過逆向渲染最佳化 3D 高斯表示,而 EWA 潑灑僅考慮前向渲染問題。
段落功能
補充機制——描述 2D Mip 濾波器如何處理 3D 濾波器未能涵蓋的縮小場景。
邏輯角色
與 5.1 節形成互補:3D 濾波器處理放大(頻率上限約束),2D Mip 濾波器處理縮小(反鋸齒)。兩者合併構成完整的跨尺度解方。
論證技巧 / 潛在漏洞
以「物理成像過程」為設計動機比 EWA 的經驗性方法更具原則性。「重建 vs. 渲染」的區分也是精準的學術定位。但以高斯近似方盒濾波會在邊界處產生平滑效應,可能在高對比邊緣處引入可感知的模糊。
To overcome these challenges, we make two modifications to the original 3DGS model. In particular, we introduce a 3D smoothing filter that limits the frequency of the 3D representation and replace the 2D dilation with a 2D Mip filter that approximates box filtering in the physical imaging process. The 3D smoothing filter resolves the scale ambiguity by ensuring Gaussian primitives maintain physically meaningful sizes constrained by the Nyquist frequency of the training views. The 2D Mip filter, meanwhile, replaces the ad-hoc dilation with a principled anti-aliasing mechanism that adapts to the target rendering resolution. Together, these principled and simple modifications require only few changes to the original 3DGS code, making our approach easy to adopt.
為克服這些挑戰,我們對原始 3DGS 模型做出兩項修改。具體而言,我們引入限制三維表示頻率的三維平滑濾波器,並以近似物理成像過程中方盒濾波的二維 Mip 濾波器取代二維膨脹。三維平滑濾波器透過確保高斯基元維持由訓練視角奈奎斯特頻率所約束的物理有意義尺寸,解決了尺度模糊性問題。二維 Mip 濾波器則以有原則的反鋸齒機制取代臨時性的膨脹操作,並能自適應目標渲染解析度。這些具原則性且簡潔的修改僅需對原始 3DGS 程式碼進行少量更動,使我們的方法易於採用。
段落功能
方法整合——總結雙重濾波的協同作用與實作簡潔性。
邏輯角色
此段將兩個獨立的技術組件統合為完整的解決方案,並強調「僅需少量更動」以降低讀者對方法複雜度的疑慮。
論證技巧 / 潛在漏洞
反覆強調「原則性」(principled)與「簡潔」(simple)是極具說服力的行銷策略——在學術社群中,方法的優雅性往往與被採用的速度正相關。「少量更動」的實作主張對工程實踐者而言極具吸引力。
6. Experiments — 實驗
We build our method upon the popular open-source 3DGS code base. Following 3DGS, we train our models for 30K iterations across all scenes and use the same loss function, Gaussian density control strategy, schedule and hyperparameters. For the multi-scale training setting on the Blender dataset, our approach attains comparable or superior performance compared to state-of-the-art methods such as Mip-NeRF and Tri-MipRF. Notably, our method outperforms 3DGS and 3DGS + EWA by a substantial margin. For the single-scale training and multi-scale testing — a novel evaluation protocol proposed in this work — our method significantly outperforms all existing state-of-the-art methods.
我們的方法建構於廣受使用的開源 3DGS 程式碼基礎之上。遵循 3DGS 的設定,所有場景皆訓練三萬次迭代,使用相同的損失函數、高斯密度控制策略、排程與超參數。在 Blender 資料集的多尺度訓練設定中,我們的方法達到與 Mip-NeRF 和 Tri-MipRF 等最先進方法相當或更優的效能。值得注意的是,我們的方法大幅超越 3DGS 與 3DGS + EWA。在本文提出的新穎評估協定——單一尺度訓練與多尺度測試——中,我們的方法顯著超越所有現有的最先進方法。
段落功能
提供關鍵實驗證據——在標準與新穎評估協定上驗證方法優越性。
邏輯角色
實驗設計巧妙地涵蓋兩種情境:(1) 多尺度訓練(與先前工作的公平比較);(2) 單一尺度訓練+多尺度測試(本文提出的更嚴格評估)。後者直接對應論文的核心主張——分布外泛化能力。
論證技巧 / 潛在漏洞
提出新的評估協定並在該協定上取得最佳成績,是強有力的論證策略。但這也可能被視為「設計有利於自己的基準測試」——讀者需自行判斷此評估協定是否反映真實應用需求。
On the Mip-NeRF 360 dataset, we evaluate in two setups. First, following the standard approach where models are trained and evaluated at the same scale, with indoor scenes downsampled by a factor of two and outdoor scenes by four. In this in-distribution setting, Mip-Splatting maintains competitive performance with the original 3DGS. Second, models are trained on data downsampled by a factor of 8 and rendered at successively higher resolutions to simulate zoom-in effects. Qualitative results demonstrate that Mip-Splatting effectively eliminates high-frequency artifacts, yielding high quality renderings that more closely resemble ground truth. Methods based on 3DGS capture fine details more effectively than Mip-NeRF and Tri-MipRF, but only at the original training scale — 3DGS exhibits dilation artifacts at lower resolutions, while EWA splatting uses a large low-pass filter, resulting in oversmoothed images.
在 Mip-NeRF 360 資料集上,我們在兩種設定下評估。首先,遵循標準方式——模型在同一尺度下訓練與評估,室內場景降取樣兩倍,室外場景四倍。在此分布內設定中,Mip-Splatting 維持與原始 3DGS 相當的競爭力。其次,模型在降取樣八倍的資料上訓練,並在逐步提高的解析度下渲染,以模擬放大效果。定性結果顯示,Mip-Splatting 有效消除了高頻偽影,產生更貼近真實影像的高品質渲染。基於 3DGS 的方法在細節擷取上優於 Mip-NeRF 與 Tri-MipRF,但僅限於原始訓練尺度——3DGS 在低解析度下展現膨脹偽影,而 EWA 潑灑則因使用過大的低通濾波器導致影像過度平滑。
段落功能
在最具挑戰性的基準上提供全面的比較證據。
邏輯角色
此段覆蓋了兩個關鍵面向:(1) 分布內不退化(保守驗證);(2) 分布外大幅改進(進取性驗證)。對 EWA 的「過度平滑」批評精準地展示了本方法的優勢——在去除偽影的同時保持細節。
論證技巧 / 潛在漏洞
「消除偽影同時保持細節」的雙重主張透過與 EWA(去偽影但丟細節)和原始 3DGS(保細節但有偽影)的對比得到有力支撐。但定性結果的主觀性較高,讀者需參考定量指標以完整評估。
In the absence of a public benchmark for the single-scale training and multi-scale testing setting, we trained all baseline methods ourselves. The quantitative results indicate that our method significantly outperforms all existing state-of-the-art methods in this challenging evaluation. Notably, our method surpasses both 3DGS and 3DGS + EWA in rendering quality at lower resolutions. In particular, 3DGS exhibits dilation artifacts, while EWA splatting uses a large low-pass filter to limit the frequency of the rendered images, resulting in oversmoothed images. Our approach achieves the best balance between artifact removal and detail preservation across all tested scales.
由於單一尺度訓練與多尺度測試設定缺乏公開基準,我們自行訓練了所有基線方法。定量結果顯示,在此具挑戰性的評估中,我們的方法顯著超越所有現有最先進方法。值得注意的是,我們的方法在低解析度渲染品質上超越 3DGS 和 3DGS + EWA。具體而言,3DGS 展現膨脹偽影,而 EWA 潑灑使用過大的低通濾波器限制渲染影像頻率,導致過度平滑。我們的方法在所有測試尺度上達成偽影去除與細節保留之間的最佳平衡。
段落功能
補充定量證據——自建基準並報告全面的數值比較。
邏輯角色
此段填補了「新穎評估協定缺乏公開基準」的空白。自行訓練所有基線方法展現了實驗的公正性,但也引入了再現性風險。
論證技巧 / 潛在漏洞
自建基準的透明度值得肯定,但基線方法的訓練品質可能影響比較公平性。此外,「最佳平衡」的主張需要定量指標(如 PSNR、SSIM、LPIPS)的具體數值支撐,而非僅以定性描述呈現。
7. Ablation Studies — 消融研究
To evaluate the effectiveness of the 3D smoothing filter, we conduct an ablation with the single-scale training and multi-scale testing setting to simulate zoom-in effects in the Mip-NeRF 360 dataset. Omitting the 3D smoothing filter results in high-frequency artifacts when rendering higher resolution images. Excluding the 2D Mip filter causes a slight decline in performance as this filter's role is mainly for mitigating zoom-out artifacts. The absence of both filters leads to an excessive generation of small Gaussian primitives, due to the density control mechanism, resulting in out-of-memory errors.
為評估三維平滑濾波器的有效性,我們在 Mip-NeRF 360 資料集上以單一尺度訓練與多尺度測試設定進行消融實驗,模擬放大效果。移除三維平滑濾波器會在渲染高解析度影像時產生高頻偽影。排除二維 Mip 濾波器僅導致效能微幅下降,因為此濾波器的角色主要是緩解縮小偽影。同時移除兩個濾波器會因密度控制機制過度生成小型高斯基元,導致記憶體溢出錯誤。
段落功能
組件驗證——透過系統性移除確認每個濾波器的必要性與各自角色。
邏輯角色
消融研究是論文方法論完整性的關鍵支柱:(1) 3D 濾波器對放大至關重要;(2) 2D 濾波器對縮小至關重要;(3) 兩者缺一不可。記憶體溢出的極端結果更強化了「兩者互補」的論點。
論證技巧 / 潛在漏洞
消融設計乾淨且結論明確——每個組件的貢獻方向不同,形成互補關係。記憶體溢出的發現是意外但有力的證據,顯示濾波器不僅改善品質,還是系統穩定運作的必要條件。
The ablation further demonstrates the complementary nature of the two filters. While the 3D smoothing filter is critical for zoom-in scenarios by preventing overly sharp Gaussian primitives, the 2D Mip filter provides benefits primarily for zoom-out operations by properly integrating multiple Gaussians within a single pixel's footprint. We choose the variance of our 2D Mip filter as 0.1, approximating a single pixel, and the variance of our 3D smoothing filter as 0.2, totaling 0.3 for a fair comparison with the EWA filter. These hyperparameters remain fixed across all experiments, demonstrating the robustness of our approach.
消融實驗進一步展示了兩個濾波器的互補性質。三維平滑濾波器對放大場景至關重要,能防止高斯基元過於尖銳;二維 Mip 濾波器則主要在縮小操作中發揮效益,在單一像素覆蓋範圍內適當積分多個高斯。我們選擇二維 Mip 濾波器的變異數為 0.1(近似單一像素),三維平滑濾波器的變異數為 0.2,合計 0.3 以與 EWA 濾波器進行公平比較。這些超參數在所有實驗中保持固定,展示了我們方法的穩健性。
段落功能
超參數分析——報告具體數值選擇及其跨實驗的穩定性。
邏輯角色
此段回應「超參數是否需要精心調整」的潛在疑慮。固定超參數跨所有實驗的做法展現了方法的穩健性,降低了實際應用的門檻。
論證技巧 / 潛在漏洞
合計 0.3 以公平比較 EWA 的設計展現了實驗的嚴謹性。但變異數分配比例(0.1 vs 0.2)的選擇依據未被充分解釋——是否存在最佳分配比例,以及此比例是否因場景類型而異,值得進一步探討。
8. Conclusion — 結論
We have presented Mip-Splatting, which addresses the aliasing and dilation artifacts of 3D Gaussian Splatting when the sampling rate changes. Our approach introduces two principled modifications: a 3D smoothing filter that constrains the maximum frequency of Gaussian primitives based on the Nyquist-Shannon Sampling Theorem, and a 2D Mip filter that replaces the ad-hoc dilation with a physically motivated anti-aliasing mechanism. These modifications are closed-form, computationally efficient, and require only minimal changes to the original 3DGS implementation. Experiments demonstrate that training at a single sampling rate enables faithful rendering at various sampling rates, achieving state-of-the-art results on both in-distribution and out-of-distribution evaluation benchmarks. Our work demonstrates the value of incorporating signal processing principles into modern neural rendering pipelines.
我們提出了 Mip-Splatting,解決了 3D 高斯潑灑在取樣率改變時的鋸齒與膨脹偽影。我們的方法引入兩項有原則的修改:基於奈奎斯特-夏農取樣定理約束高斯基元最大頻率的三維平滑濾波器,以及以物理啟發的反鋸齒機制取代臨時性膨脹的二維 Mip 濾波器。這些修改具有封閉式解、計算高效,且僅需對原始 3DGS 實作進行最少量的更動。實驗證明,在單一取樣率下訓練即可在各種取樣率下忠實渲染,在分布內與分布外評估基準上皆達到最先進的成果。我們的工作展示了將訊號處理原理融入現代神經渲染管線的價值。
段落功能
總結全文——重申核心貢獻、方法特性與實驗成果。
邏輯角色
結論段與摘要形成呼應結構,但增添了「訊號處理原理融入神經渲染」的更高層次啟示。從具體方法回到一般性原則,完成論證的閉環。
論證技巧 / 潛在漏洞
結論措辭自信但恰當——「最先進成果」有實驗數據支撐,「最少量更動」有開源程式碼為證。唯一的遺憾是未討論局限性:例如 3D 平滑濾波器的保守性質可能在稀疏視角場景中限制重建頻率,以及方法對非高斯基元表示(如近期的 3D Gaussian 變體)的可推廣性。
論證結構總覽
問題
3DGS 在取樣率改變時
產生鋸齒與膨脹偽影
3DGS 在取樣率改變時
產生鋸齒與膨脹偽影
→
診斷
缺乏 3D 頻率約束
2D 膨脹非物理性
缺乏 3D 頻率約束
2D 膨脹非物理性
→
論點
以取樣定理為基礎
雙重濾波修正
以取樣定理為基礎
雙重濾波修正
→
證據
多基準跨尺度測試
SOTA 成果
多基準跨尺度測試
SOTA 成果
→
結論
訊號處理原理
提升神經渲染穩健性
訊號處理原理
提升神經渲染穩健性
作者核心主張(一句話)
透過基於奈奎斯特-夏農取樣定理的三維平滑濾波器與二維 Mip 濾波器,以封閉式修改解決 3D 高斯潑灑在跨尺度渲染時的鋸齒與膨脹偽影,實現單一尺度訓練、多尺度忠實渲染。
論證最強處
理論根基的堅實性:以奈奎斯特取樣定理為基礎推導頻率約束,而非依賴經驗性調參,使方法具有明確的理論保證。高斯摺積的封閉式解確保了計算效率與數學優雅性。單一尺度訓練即可多尺度泛化的能力,直接回應了實際應用中的核心需求。
論證最弱處
理論假設的適用邊界:奈奎斯特定理假設帶限訊號與均勻取樣,但自然場景常含有高頻不連續(如物件邊緣),且多視角取樣本質上是非均勻的。以所有攝影機的最大取樣率為約束可能過於保守,在稀疏視角場景中限制了可重建的頻率範圍。此外,方盒濾波的高斯近似在銳利邊緣處的精確度有待更深入的理論分析。