Abstract — 摘要
Neural Radiance Fields (NeRF) is a popular view synthesis technique that represents a scene as a continuous volumetric function, parameterized by multilayer perceptrons. While NeRF has been demonstrated to generate photorealistic renderings of complex scenes, it is only capable of producing plausible renditions for scenes with fine geometric structures that exhibit smooth appearance variation. NeRF often fails to accurately capture and reproduce the appearance of glossy surfaces, because the scene's true radiance function varies quickly with view direction, especially around specular highlights. We address this limitation by replacing NeRF's parameterization of view-dependent appearance with a representation of reflected radiance and structuring this function using a collection of spatially-varying scene properties. We additionally propose a regularization on normal vectors that improves the realism of specular reflections. Our model, which we call Ref-NeRF, achieves state-of-the-art rendering quality with an interpretable internal representation that enables scene editing.
神經輻射場(NeRF)是一種廣受歡迎的視角合成技術,將場景表示為以多層感知器參數化的連續體積函數。雖然 NeRF 已被證明能生成複雜場景的逼真渲染結果,但它僅能對具有精細幾何結構且外觀變化平滑的場景產生合理的呈現。NeRF 常常無法準確捕捉並重現光澤表面的外觀,因為場景的真實輻射函數隨觀看方向快速變化,尤其是在鏡面高光附近。我們透過以反射輻射的表示取代 NeRF 對視角相關外觀的參數化來解決此限制,並使用一組空間變化的場景屬性來結構化此函數。我們另外提出一種對法向量的正則化方法,以改善鏡面反射的真實感。我們的模型稱為 Ref-NeRF,達到了最先進的渲染品質,並具備可解釋的內部表示,使場景編輯成為可能。
段落功能
全文總覽——以遞進方式從 NeRF 的能力出發,指出其在光澤表面的不足,再引出 Ref-NeRF 的解決方案。
邏輯角色
摘要同時承擔「問題定義」與「解決方案預告」的功能:先界定 NeRF 在鏡面反射上的根本缺陷,再以三項貢獻(反射參數化、法向量正則化、可解釋表示)概述回應策略。
論證技巧 / 潛在漏洞
以「真實輻射函數隨觀看方向快速變化」為核心論據,將問題歸因於表示方式而非模型容量,為後續的重參數化方案建立了理論基礎。但「最先進的渲染品質」此一宣稱需在實驗部分以具體數據支撐。
1. Introduction — 緒論
Neural Radiance Fields (NeRF) have emerged as a powerful representation for novel view synthesis, encoding a scene as a continuous function that maps a 3D position and 2D viewing direction to a volume density and emitted color. Recent extensions such as mip-NeRF have further improved quality by reasoning about the volume of each sampled conical frustum. Despite these advances, NeRF and its variants often produce poor renderings of glossy and reflective objects. The scene's true radiance function varies quickly with view direction around specular highlights, and NeRF is only able to accurately render the appearance of scene points from the specific viewing directions observed in the training images — its interpolation of glossy appearance from novel viewpoints is poor.
神經輻射場(NeRF)已成為新視角合成的強大表示方法,將場景編碼為一個連續函數,將三維位置與二維觀看方向映射至體積密度與發射顏色。近期的擴展如 mip-NeRF 透過對每個取樣錐體截面的體積進行推理,進一步提升了品質。儘管有這些進展,NeRF 及其變體對光澤和反射物體的渲染結果往往不佳。場景的真實輻射函數在鏡面高光附近隨觀看方向快速變化,而 NeRF 僅能從訓練影像中觀察到的特定觀看方向準確渲染場景點的外觀——其對新視角下光澤外觀的插值效果很差。
段落功能
建立研究場域——肯定 NeRF 的成就並精確指出其在光澤物體渲染上的根本問題。
邏輯角色
論證鏈的起點:先建立 NeRF 作為基礎的地位,再精確定位問題根源——輻射函數隨視角的高頻變化導致插值失敗。此分析為後續的「以反射方向取代觀看方向」解方提供理論動機。
論證技巧 / 潛在漏洞
將問題精確歸因於「插值失敗」而非「模型容量不足」,是一個關鍵的論證選擇——這暗示解決方案在於改變表示方式(重參數化),而非增加模型規模。此框架非常有效地引導讀者走向作者的提案。
This poor interpolation leads to a secondary problem: NeRF tends to "fake" specular reflections using isotropic emitters inside the object instead of view-dependent radiance emitted by points at the surface. The resulting geometry is "foggy" — the density field becomes diffuse and spread out rather than concentrated at true surfaces. This not only degrades rendering quality but also prevents extraction of accurate surface normals, which limits applications such as relighting and material editing. The root cause is that NeRF's parameterization of view-dependent color as a function of the viewing direction produces a function that is poorly suited for interpolation, since the same specular highlight appears at different viewing directions for surface points with different orientations.
這種不佳的插值導致了一個次要問題:NeRF 傾向於使用物體內部的各向同性發射體來「偽造」鏡面反射,而非由表面點發射的視角相關輻射。由此產生的幾何呈現「霧狀」——密度場變得瀰散而非集中在真實表面上。這不僅降低了渲染品質,還阻礙了準確表面法向量的提取,從而限制了重新打光與材質編輯等應用。根本原因在於 NeRF 將視角相關顏色參數化為觀看方向的函數,這產生了一個不適合插值的函數——因為對於具有不同朝向的表面點,相同的鏡面高光出現在不同的觀看方向上。
段落功能
深化問題分析——揭示 NeRF 為應對插值失敗而採取的「偽造」策略及其連鎖後果。
邏輯角色
此段將表面問題(渲染品質差)追溯至深層機制(霧狀幾何),並進一步連結到應用層面的限制(法向量不準確),形成「技術缺陷 -> 結構性後果 -> 應用受限」的三層論證。
論證技巧 / 潛在漏洞
「偽造」一詞帶有強烈的修辭效果,暗示 NeRF 的行為是一種病態而非合理的替代策略。此分析在物理光學上是正確的:觀看方向的參數化確實無法有效表示隨表面法向量變化的鏡面反射。但作者未討論增加訓練視角密度是否能緩解此問題。
Our key insight is that structuring NeRF's representation of view-dependent appearance can make the underlying function simpler and easier to interpolate. We observe that for a surface with a rotationally-symmetric BRDF, the view-dependent radiance can be expressed as a function of the reflection of the viewing direction about the surface normal. In this reflected radiance parameterization, the function is constant across the scene for a flat mirror — because it is unaffected by changes in surface orientation. We therefore propose Ref-NeRF, which restructures NeRF's outgoing radiance as a function of the reflection direction, and further decomposes appearance into diffuse and specular components controlled by spatially-varying material properties including a roughness parameter.
我們的核心洞見是:結構化 NeRF 對視角相關外觀的表示,可使底層函數更簡潔且更易於插值。我們觀察到,對於具有旋轉對稱 BRDF 的表面,視角相關的輻射可以表示為觀看方向關於表面法向量之反射的函數。在這種反射輻射的參數化下,對於一面平面鏡,該函數在整個場景中為常數——因為它不受表面朝向變化的影響。因此我們提出 Ref-NeRF,將 NeRF 的出射輻射重新結構化為反射方向的函數,並進一步將外觀分解為漫射與鏡面分量,由空間變化的材質屬性(包括粗糙度參數)所控制。
段落功能
提出核心解決方案——以反射方向取代觀看方向作為參數化基礎。
邏輯角色
這是全文最關鍵的「轉折」段:從問題分析轉向解決方案。以「平面鏡上函數為常數」的直覺性論證,清楚說明為何反射方向的參數化更適合插值。此論證直接回應了前段指出的根本原因。
論證技巧 / 潛在漏洞
以「旋轉對稱 BRDF」為前提建立理論基礎,邏輯嚴謹。但真實世界中存在非旋轉對稱的材質(如拉絲金屬、各向異性反射),此假設的適用範圍有限。作者稍後需以實驗證明此簡化在實際場景中仍然有效。
2. Related Work — 相關工作
Neural scene representations have gained significant attention for their ability to encode complex 3D scenes. NeRF represents a scene using a multilayer perceptron (MLP) that maps 3D coordinates and viewing directions to density and color. Subsequent works have addressed various limitations: mip-NeRF mitigates aliasing by casting cones instead of rays and reasoning about the volume of each sample; other methods improve training speed, rendering efficiency, and handling of unbounded scenes. However, none of these works specifically address the fundamental issue of representing view-dependent appearance for specular and glossy surfaces.
神經場景表示因其編碼複雜三維場景的能力而備受關注。NeRF 使用多層感知器將三維座標與觀看方向映射至密度與顏色來表示場景。後續研究已解決了各種限制:mip-NeRF 透過發射錐體而非射線並對每個樣本的體積進行推理來緩解混疊現象;其他方法則改善了訓練速度、渲染效率以及對無界場景的處理。然而,這些研究均未專門處理鏡面與光澤表面之視角相關外觀表示的根本問題。
段落功能
文獻回顧——梳理 NeRF 系列方法的演進脈絡並定位未解問題。
邏輯角色
建立學術譜系:NeRF -> mip-NeRF -> 各種改進,同時指出整個研究線中的共同盲點——鏡面外觀處理。這為 Ref-NeRF 的定位提供了清晰的學術空白。
論證技巧 / 潛在漏洞
以「均未專門處理」的措辭暗示此問題被整個社群所忽視,增強了本文貢獻的重要性。但實際上已有 NeRV、NeRD 等方法嘗試處理反射與材質分解,作者在後文應更精確地區分這些方法與 Ref-NeRF 的差異。
Classical approaches to view-dependent appearance in computer graphics rely on explicit BRDF models such as Phong, Cook-Torrance, and microfacet models that describe how light interacts with surfaces. These models parameterize reflectance as a function of surface normal, incoming light direction, and outgoing view direction. Recent neural rendering methods attempt to learn such reflectance properties implicitly, but most conflate geometry and appearance in a single representation, making it difficult to achieve physically plausible rendering of specular surfaces. Some works decompose appearance into intrinsic properties (albedo, normal, roughness), but these typically require known lighting conditions or multi-illumination captures. Our approach bridges these two lines of research by structuring the neural representation using insights from physically-based rendering without requiring explicit BRDF fitting or known illumination.
電腦圖學中處理視角相關外觀的經典方法依賴明確的 BRDF 模型,如 Phong、Cook-Torrance 與微面模型,描述光線如何與表面互動。這些模型將反射率參數化為表面法向量、入射光方向與出射觀看方向的函數。近期的神經渲染方法嘗試隱式學習這類反射屬性,但大多數方法將幾何與外觀混合在單一表示中,難以實現鏡面表面的物理合理渲染。部分研究將外觀分解為內在屬性(反射率、法向量、粗糙度),但通常需要已知的照明條件或多重照明擷取。我們的方法橋接了這兩條研究路線:利用基於物理渲染的洞見來結構化神經表示,而無需明確的 BRDF 擬合或已知照明。
段落功能
跨領域定位——連結電腦圖學的 BRDF 理論與神經渲染方法。
邏輯角色
此段建立了 Ref-NeRF 的跨領域貢獻定位:它既借鑒了物理渲染的結構性知識(反射方向、粗糙度),又保留了神經表示的靈活性(無需顯式 BRDF)。這是一種「兩全其美」的論證策略。
論證技巧 / 潛在漏洞
以「橋接兩條研究路線」自我定位,論證上頗具說服力。但此定位也帶來期望管理的挑戰——讀者可能期待 Ref-NeRF 能像物理方法一樣精確地分解材質屬性,而實際上其分解的可靠性取決於訓練資料的覆蓋程度。
Accurate surface normal estimation is critical for realistic rendering of specular objects. In volumetric representations, normals can be computed as the negative gradient of the density field, but NeRF's density fields are often noisy and poorly concentrated at true surfaces, yielding inaccurate normals. Some methods directly predict normals using an auxiliary MLP head or enforce surface-like density distributions through regularization. Our work combines both strategies: we predict normals via the MLP and regularize them to be consistent with density-derived normals, while additionally introducing an orientation loss that encourages density to concentrate at surfaces rather than forming diffuse clouds.
準確的表面法向量估計對鏡面物體的真實渲染至關重要。在體積表示中,法向量可計算為密度場的負梯度,但 NeRF 的密度場通常帶有雜訊且未能良好地集中於真實表面,導致法向量不準確。部分方法透過輔助的 MLP 輸出頭直接預測法向量,或透過正則化強制密度呈現類表面分布。我們的研究結合了兩種策略:透過 MLP 預測法向量,並正則化使其與密度梯度導出的法向量一致,同時引入一個朝向損失,鼓勵密度集中在表面而非形成瀰散的雲狀結構。
段落功能
技術文獻定位——概述法向量估計的現有方法並預告本文策略。
邏輯角色
此段為方法章節中的正則化設計奠定基礎:預告了「MLP 預測 + 密度梯度一致性 + 朝向損失」三管齊下的策略,讓讀者在進入技術細節前已掌握整體框架。
論證技巧 / 潛在漏洞
將「結合」兩種策略框架為一種進步,但這也增加了超參數調整的複雜性——兩個正則化項的權重平衡需要仔細設定。作者需在實驗中以消融研究證明每個組件的必要性。
3. Method — 方法
Our approach builds upon mip-NeRF and modifies its representation of view-dependent appearance. The standard NeRF model queries a directional MLP with the viewing direction to produce the output color. We make three key modifications: (1) we replace the viewing direction with the reflection direction as input to the directional MLP; (2) we introduce Integrated Directional Encoding (IDE) that encodes the reflection direction along with a roughness parameter; and (3) we decompose the output color into diffuse and specular components, where the diffuse color depends only on position while the specular color depends on the encoded reflection direction.
我們的方法建構於 mip-NeRF 之上,修改其對視角相關外觀的表示。標準 NeRF 模型以觀看方向查詢方向 MLP 以產生輸出顏色。我們進行三項關鍵修改:(1) 以反射方向取代觀看方向作為方向 MLP 的輸入;(2) 引入整合方向編碼(IDE),將反射方向連同粗糙度參數一起編碼;(3) 將輸出顏色分解為漫射與鏡面分量,其中漫射顏色僅取決於位置,而鏡面顏色取決於編碼後的反射方向。
段落功能
方法總覽——以三項修改的形式概述 Ref-NeRF 對 mip-NeRF 的改進。
邏輯角色
提供方法章節的路線圖:三項修改分別對應反射參數化、方向編碼、外觀分解,讓讀者能夠有結構地理解後續的技術細節。
論證技巧 / 潛在漏洞
以「三項關鍵修改」的清單形式組織論述,結構清晰易讀。建構於 mip-NeRF 而非原始 NeRF 之上的選擇也是策略性的——mip-NeRF 已解決反鋸齒問題,讓 Ref-NeRF 能專注於視角相關外觀這一特定挑戰。
3.1 Reflection Direction Parameterization — 反射方向參數化
In standard NeRF, the directional MLP takes the viewing direction as input. For a surface with a rotationally-symmetric BRDF, the outgoing radiance at a surface point is a function of the reflection of the viewing direction about the local surface normal. We compute the reflection direction as:
ω̂r = 2(ω̂o · n̂)n̂ − ω̂o,
where ω̂o is the outgoing (viewing) direction and n̂ is the predicted surface normal. This reparameterization has a crucial advantage: for a perfectly specular flat surface, the reflected radiance function is constant across the entire surface, since all surface points with the same normal reflect the same environment. In contrast, with the viewing direction parameterization, the same specular highlight requires the MLP to learn a complex mapping that varies with surface orientation.
在標準 NeRF 中,方向 MLP 以觀看方向作為輸入。對於具有旋轉對稱 BRDF 的表面,表面點的出射輻射是觀看方向關於局部表面法向量之反射的函數。我們將反射方向計算為:omega_r = 2(omega_o . n)n - omega_o,其中 omega_o 為出射(觀看)方向,n 為預測的表面法向量。此重參數化具有一個關鍵優勢:對於完美鏡面的平面,反射輻射函數在整個表面上為常數,因為所有具有相同法向量的表面點反射相同的環境。相反地,在觀看方向的參數化下,相同的鏡面高光需要 MLP 學習一個隨表面朝向變化的複雜映射。
段落功能
核心技術推導——定義反射方向的計算公式並解釋其相較於觀看方向的優勢。
邏輯角色
此段是全文方法論的基石。透過「平面鏡上函數為常數」這一直覺案例,清楚說明重參數化如何簡化 MLP 需要學習的函數。這是從物理光學推導出的數學洞見。
論證技巧 / 潛在漏洞
以完美鏡面的極端案例作為論證支點非常有效——在此案例中,反射參數化將函數複雜度降至最低。但真實場景中的表面很少是完美鏡面,且法向量的預測誤差會直接傳播至反射方向的計算。此方法對法向量精度的依賴是一個隱含的脆弱性。
To obtain the surface normal n̂ needed for computing the reflection direction, we add an auxiliary output head to the spatial MLP that directly predicts a normal vector n̂' at each 3D point. This predicted normal is used for computing the reflection direction, rather than the density gradient normal n̂ = −∇σ/||∇σ||, because the gradient-derived normal is noisy for NeRF's diffuse density fields. However, we add a regularization loss that encourages the predicted normal to be consistent with the density gradient, thereby coupling the two and improving the overall quality of both the geometry and the appearance.
為獲取計算反射方向所需的表面法向量,我們在空間 MLP 添加一個輔助輸出頭,直接預測每個三維點的法向量。此預測法向量用於計算反射方向,而非使用密度梯度法向量 n = -grad(sigma)/||grad(sigma)||,因為梯度導出的法向量在 NeRF 的瀰散密度場中帶有雜訊。然而,我們加入了一個正則化損失,鼓勵預測法向量與密度梯度保持一致,從而耦合兩者並提升幾何與外觀的整體品質。
段落功能
實作細節——說明法向量的取得方式與兩種法向量之間的協調機制。
邏輯角色
此段處理一個關鍵的工程問題:直接使用密度梯度作為法向量不可行(雜訊太大),但完全獨立預測法向量又可能與幾何不一致。正則化損失是連接這兩者的橋樑。
論證技巧 / 潛在漏洞
同時使用預測法向量(用於反射方向計算)與密度梯度法向量(用於正則化),是一種精巧的「軟約束」設計。但這也引入了一個張力:正則化太強會使預測法向量退化為雜訊梯度;太弱則幾何一致性不足。最佳平衡點需依靠超參數調整。
3.2 Integrated Directional Encoding — 整合方向編碼
Standard NeRF encodes the viewing direction using sinusoidal positional encoding, which maps the direction to a fixed set of frequency bands. This encoding does not account for material roughness — a rough surface and a smooth surface with the same reflection direction receive identical encodings. We propose Integrated Directional Encoding (IDE), which encodes directions using spherical harmonics {Ylm} and represents the distribution of reflected directions using a von Mises-Fisher (vMF) distribution centered at the reflection direction with concentration parameter κ = 1/ρ, where ρ is a spatially-varying roughness parameter predicted by the MLP.
標準 NeRF 使用正弦位置編碼來編碼觀看方向,將方向映射至一組固定的頻率帶。此編碼未考慮材質粗糙度——粗糙表面與光滑表面在相同反射方向下會收到完全相同的編碼。我們提出整合方向編碼(IDE),使用球諧函數 {Y_l^m} 來編碼方向,並以集中於反射方向的 von Mises-Fisher(vMF)分布來表示反射方向的分布,其集中參數 kappa = 1/rho,其中 rho 為 MLP 預測的空間變化粗糙度參數。
段落功能
第二項核心創新——引入將材質粗糙度融入方向編碼的 IDE 機制。
邏輯角色
在反射方向參數化之上,此段補充了「材質粗糙度」這一關鍵維度。IDE 使得同一反射方向在不同粗糙度下產生不同的編碼,這對於表示從鏡面到磨砂表面的材質連續譜至關重要。
論證技巧 / 潛在漏洞
以 vMF 分布建模反射方向的不確定性是一個優雅的物理類比——粗糙表面對應寬分布,光滑表面對應窄分布。選用球諧函數作為基底也是合理的,因為它天然適合球面上的函數表示。但 vMF 分布假設反射瓣為各向同性,對各向異性反射的表示能力有限。
The IDE computes the expected value of a set of spherical harmonics under this vMF distribution. The key mathematical result is that the expected value of each spherical harmonic of degree l under a vMF distribution is simply the spherical harmonic evaluated at the mean direction, multiplied by an attenuation factor:
Al(κ) ≈ exp(−l(l+1) / 2κ).
Intuitively, increasing the roughness of a material by lowering κ corresponds to attenuating the encoding's spherical harmonics with high orders. This means that a perfectly smooth surface (κ → ∞) retains all frequency components, while a very rough surface (κ → 0) only retains low-frequency components. This directly mirrors how glossy BRDFs act as low-pass filters on incident illumination.
IDE 計算在此 vMF 分布下一組球諧函數的期望值。關鍵的數學結果是:l 階球諧函數在 vMF 分布下的期望值,僅為該球諧函數在均值方向上的值乘以一個衰減因子:A_l(kappa) 約等於 exp(-l(l+1) / 2kappa)。直覺上,降低 kappa 以增加材質粗糙度,對應於衰減編碼中的高階球諧函數。這意味著完美光滑的表面(kappa 趨向無窮大)保留所有頻率成分,而非常粗糙的表面(kappa 趨向零)僅保留低頻成分。這直接反映了光澤 BRDF 如何作為入射照明的低通濾波器。
段落功能
數學推導——給出 IDE 的封閉形式解與物理直覺。
邏輯角色
此段是 IDE 的數學核心。衰減因子 A_l 的指數形式使得粗糙度對頻率內容的控制既連續又可微分,這對於端到端的梯度優化至關重要。同時,與物理渲染中「BRDF 作為低通濾波器」的類比強化了方法的物理合理性。
論證技巧 / 潛在漏洞
以「低通濾波器」的直覺解釋衰減因子,使複雜的數學推導變得易於理解,是優秀的科學寫作。近似公式 A_l 的精確度在極端 kappa 值下可能降低,但對實際應用影響可能不大。此封閉形式解避免了數值積分的開銷,是方法可行性的關鍵。
The final output color is decomposed as c = γ(cd + s ⊙ cs), where cd is the diffuse color produced by the spatial MLP (depending only on position), s is a specular tint that modulates the color of specular reflections, cs is the specular color produced by the directional MLP (depending on the IDE-encoded reflection direction), and γ is a tone mapping function. This decomposition separates position-dependent diffuse appearance from view-dependent specular appearance, yielding an interpretable internal representation where each component has a clear physical meaning.
最終輸出顏色分解為 c = gamma(c_d + s * c_s),其中 c_d 為空間 MLP 產生的漫射顏色(僅取決於位置),s 為調制鏡面反射顏色的鏡面色調,c_s 為方向 MLP 產生的鏡面顏色(取決於 IDE 編碼的反射方向),gamma 為色調映射函數。此分解將位置相關的漫射外觀與視角相關的鏡面外觀分離,產生一個可解釋的內部表示,其中每個組件都具有明確的物理意義。
段落功能
外觀模型——定義漫射與鏡面分量的組合方式。
邏輯角色
將反射方向參數化(第 3.1 節)與 IDE(第 3.2 節前半部)整合為一個完整的外觀模型。漫射/鏡面分解呼應了相關工作中提及的物理渲染原理,但以更靈活的神經網路形式實現。
論證技巧 / 潛在漏洞
加法式分解(漫射 + 鏡面色調 * 鏡面顏色)是物理渲染中的標準做法,增強了模型的可解釋性。但在訓練過程中,漫射與鏡面分量之間可能存在歧義——相同的顏色可以由不同的漫射/鏡面配比產生。作者需依靠正則化來鼓勵合理的分解。
3.3 Regularization — 正則化
We introduce two complementary regularization losses that address NeRF's tendency to produce foggy geometries. The first is the orientation loss:
Ro = Σi wi max(0, n̂i' · d̂)²,
which penalizes back-facing normals that contribute to the rendered color. Specifically, it penalizes sample points whose density-gradient normals point away from the camera while simultaneously having non-negligible rendering weights. This loss prevents the model from explaining specular highlights as emitters hidden beneath a semi-transparent surface, forcing density to concentrate at true surfaces where normals face the camera.
我們引入兩個互補的正則化損失來解決 NeRF 傾向於產生霧狀幾何的問題。第一個是朝向損失:R_o = sum_i w_i max(0, n_i' . d)^2,用於懲罰對渲染顏色有貢獻的背面法向量。具體而言,它懲罰密度梯度法向量背對攝影機、同時具有不可忽略渲染權重的取樣點。此損失阻止模型將鏡面高光解釋為隱藏在半透明表面下方的發射體,迫使密度集中在法向量朝向攝影機的真實表面。
段落功能
正則化第一部分——定義朝向損失及其物理動機。
邏輯角色
此段直接回應緒論中指出的「霧狀幾何」問題。朝向損失透過懲罰「背面法向量 + 高渲染權重」的組合,有效阻止 NeRF 使用物體內部的等向性發射體來偽造反射。
論證技巧 / 潛在漏洞
此損失的設計基於一個精確的物理觀察:真實的表面反射只應來自面向攝影機的表面點。max(0, ...) 的使用確保只懲罰背面法向量而不影響正面法向量,設計上非常精巧。但對於具有複雜內部結構(如半透明物體)的場景,此損失可能過度約束密度分布。
The second is the predicted normal loss:
Rp = Σi wi ||n̂i − n̂i'||²,
which encourages the MLP-predicted normals to be consistent with the density-gradient normals. While we use the predicted normals n̂ for computing reflection directions (because they are smoother), we want them to agree with the gradient-derived normals n̂' that are geometrically grounded in the density field. This loss creates a bidirectional coupling: the predicted normals guide the density field toward better geometry, while the density gradients anchor the predicted normals to the actual volumetric structure. Together, these two losses significantly improve both the quality of rendered normals and the sharpness of the density field.
第二個是預測法向量損失:R_p = sum_i w_i ||n_i - n_i'||^2,鼓勵 MLP 預測的法向量與密度梯度法向量保持一致。雖然我們使用預測法向量 n 來計算反射方向(因為它們更平滑),但我們希望它們與在密度場中有幾何基礎的梯度導出法向量 n' 一致。此損失建立了雙向耦合:預測法向量引導密度場朝向更好的幾何,而密度梯度則將預測法向量錨定於實際的體積結構。這兩個損失共同顯著改善了渲染法向量的品質與密度場的銳利程度。
段落功能
正則化第二部分——定義預測法向量損失及其雙向耦合機制。
邏輯角色
此段完成了正則化的設計:朝向損失解決「霧狀幾何」問題,預測法向量損失解決「法向量一致性」問題。兩者互補形成完整的幾何正則化框架,是反射方向參數化能夠正確運作的保障。
論證技巧 / 潛在漏洞
「雙向耦合」的描述精確捕捉了此損失的機制——它不是單向的約束,而是讓兩個表示互相改善。但在訓練早期,當密度場尚未收斂時,梯度法向量可能非常不穩定,此時預測法向量損失的效果可能不佳。作者可能需要在訓練過程中逐步增加此損失的權重。
The total training loss combines the photometric reconstruction loss with the two regularization terms:
L = Lrecon + λoRo + λpRp,
where λo and λp are hyperparameters controlling the relative weight of each regularization term. The reconstruction loss Lrecon measures the difference between rendered and ground-truth pixel colors, following the standard mip-NeRF formulation. In practice, we find that moderate values of λo and λp work well across a range of scenes, and our ablation studies demonstrate that both losses are necessary for achieving the best rendering quality.
總訓練損失將光度重建損失與兩個正則化項結合:L = L_recon + lambda_o * R_o + lambda_p * R_p,其中 lambda_o 與 lambda_p 為控制各正則化項相對權重的超參數。重建損失 L_recon 量測渲染與真實像素顏色之間的差異,遵循標準的 mip-NeRF 公式。在實作中,我們發現適度的 lambda_o 與 lambda_p 值在各種場景中皆表現良好,且我們的消融研究證明兩個損失均為達到最佳渲染品質所必需。
段落功能
損失函數彙總——呈現完整的訓練目標及其實用性。
邏輯角色
此段將方法章節收尾:從反射參數化、IDE 到正則化,所有組件最終彙整為一個統一的訓練目標。消融研究的預告為實驗章節建立了期待。
論證技巧 / 潛在漏洞
聲稱「適度的值在各種場景中皆表現良好」增強了方法的實用性印象,但未給出具體的超參數值。在不同粗糙度混合的複雜場景中,統一的 lambda 值是否仍然適用,需要更多實驗驗證。
4. Experiments — 實驗
We evaluate Ref-NeRF on three types of datasets. First, we introduce the Shiny Blender dataset containing six glossy objects — car, ball, helmet, teapot, toaster, and coffee — rendered with 100 training and 200 test views under realistic lighting with complex specular reflections. Second, we evaluate on the standard Blender dataset from the original NeRF paper, which contains eight synthetic scenes with varying degrees of specularity. Third, we test on real captured scenes including a sedan, garden spheres, and a toy car, demonstrating generalization to real-world conditions. We compare against NeRF, mip-NeRF, NeRF++, and several variants of our method.
我們在三類資料集上評估 Ref-NeRF。首先,我們引入 Shiny Blender 資料集,包含六個光澤物體——汽車、球體、頭盔、茶壺、烤麵包機與咖啡——在真實照明下以複雜鏡面反射渲染,含 100 張訓練與 200 張測試視角。其次,我們在原始 NeRF 論文的標準 Blender 資料集上評估,該資料集包含八個具有不同程度鏡面反射的合成場景。第三,我們在真實擷取場景上測試,包括轎車、花園球體與玩具車,展示對真實世界條件的泛化能力。我們與 NeRF、mip-NeRF、NeRF++ 及我們方法的數個變體進行比較。
段落功能
實驗設置——詳述資料集構成、基線方法與評估範疇。
邏輯角色
以三類資料集(專用光澤物體集、標準基準集、真實場景)建立全面的評估框架。Shiny Blender 的引入特別重要——它是專為驗證鏡面反射處理能力而設計的基準。
論證技巧 / 潛在漏洞
自行設計的 Shiny Blender 資料集使作者能夠在最有利的條件下展示方法優勢,但也帶來自我選擇偏誤的疑慮。納入標準 Blender 與真實場景有效緩解了這一問題。比較對象中缺少專門處理反射的方法(如 NeRV)是一個潛在的不足。
On the Shiny Blender dataset, Ref-NeRF achieves a PSNR of 35.96 dB compared to mip-NeRF's 29.76 dB, representing a substantial improvement of over 6 dB. The SSIM improves from 0.928 to 0.966, and LPIPS decreases significantly. Critically, normal accuracy improves dramatically: Ref-NeRF achieves a mean angular error (MAE) of 18.38 degrees versus mip-NeRF's 60.38 degrees — a 69% improvement. On the standard Blender dataset, Ref-NeRF reaches 33.99 dB PSNR with a 35% improvement in normal accuracy over mip-NeRF, demonstrating that the structured representation benefits even scenes that are not predominantly specular.
在 Shiny Blender 資料集上,Ref-NeRF 達到 PSNR 35.96 dB,相較於 mip-NeRF 的 29.76 dB,提升超過 6 dB。SSIM 從 0.928 改善至 0.966,LPIPS 也顯著降低。關鍵的是,法向量精度大幅改善:Ref-NeRF 的平均角度誤差(MAE)為 18.38 度,而 mip-NeRF 為 60.38 度——改善幅度達 69%。在標準 Blender 資料集上,Ref-NeRF 達到 33.99 dB PSNR,法向量精度相較 mip-NeRF 改善 35%,證明結構化表示即使在非主要鏡面的場景中也帶來效益。
段落功能
核心定量結果——以數據證明 Ref-NeRF 在渲染品質與幾何精度上的顯著優勢。
邏輯角色
此段是全文實證論據的支柱。6 dB 的 PSNR 提升在影像品質領域是非常顯著的改進,69% 的法向量精度改善更是壓倒性的。這些數據直接驗證了方法章節中「結構化表示使函數更易插值」的核心論點。
論證技巧 / 潛在漏洞
選擇在 Shiny Blender(自設資料集)上報告最大改進幅度是合理的——這正是方法設計要解決的問題。在標準 Blender 上也有改進則消除了「僅對特定場景有效」的疑慮。但 mip-NeRF 的 60.38 度法向量 MAE 異常之高,暗示 mip-NeRF 在這類場景中幾乎未能學到合理的幾何,使得比較基線較弱。
Ablation studies demonstrate the importance of each component. Removing the reflection direction parameterization and reverting to viewing direction drops PSNR from 35.96 to 29.47 dB on Shiny Blender, confirming that the reparameterization is the most impactful change. Omitting the orientation loss severely degrades normal quality, with MAE increasing from 18.38 to 52.56 degrees, showing that the orientation loss is critical for preventing foggy geometry. Removing the predicted normal loss modestly reduces performance, while each structural component — roughness, diffuse color, and specular tint — contributes measurably to the overall rendering quality. These results validate that the structured representation, the IDE, and the regularization losses are all necessary components of the full system.
消融研究證明了每個組件的重要性。移除反射方向參數化並回復為觀看方向,在 Shiny Blender 上使 PSNR 從 35.96 降至 29.47 dB,確認重參數化是最具影響力的改變。省略朝向損失嚴重降低法向量品質,MAE 從 18.38 增至 52.56 度,顯示朝向損失對於防止霧狀幾何至關重要。移除預測法向量損失則適度降低效能,而每個結構性組件——粗糙度、漫射顏色與鏡面色調——均對整體渲染品質有可量測的貢獻。這些結果驗證了結構化表示、IDE 與正則化損失皆為完整系統不可或缺的組件。
段落功能
組件驗證——透過系統性的消融實驗確認每個設計選擇的必要性。
邏輯角色
消融研究將方法章節中的三項修改逐一驗證:反射參數化 > 朝向損失 > 預測法向量損失 > 結構性組件,按影響程度排序。這為讀者提供了清晰的「重要性層級」。
論證技巧 / 潛在漏洞
消融研究的設計全面且合理,逐一移除各組件並量測影響。反射參數化帶來的 6.5 dB 提升壓倒性地證明了其為核心貢獻。但消融僅在 Shiny Blender 上報告,在標準 Blender 或真實場景上的消融結果可能呈現不同的組件重要性分布。
Beyond quantitative improvements, Ref-NeRF's interpretable internal representation enables practical scene editing applications. Because the model explicitly represents diffuse color, specular tint, roughness, and surface normals as separate components, users can modify material properties after training — for example, changing the roughness of a surface to make it more or less glossy, or altering the diffuse color while preserving specular reflections. These edits produce physically plausible results because each component corresponds to a meaningful physical quantity. This capability distinguishes Ref-NeRF from methods that encode appearance as an opaque, entangled feature vector.
除了量化指標的改進之外,Ref-NeRF 可解釋的內部表示還實現了實用的場景編輯應用。由於模型明確地將漫射顏色、鏡面色調、粗糙度與表面法向量表示為獨立組件,使用者可以在訓練後修改材質屬性——例如改變表面粗糙度使其更為光澤或霧面,或者在保留鏡面反射的同時更改漫射顏色。這些編輯產生物理上合理的結果,因為每個組件對應一個有意義的物理量。此能力使 Ref-NeRF 區別於那些將外觀編碼為不透明、糾纏特徵向量的方法。
段落功能
應用展示——展現結構化表示帶來的場景編輯能力。
邏輯角色
此段超越了標準的「渲染品質比較」,展示方法的附加價值——場景編輯。這為 Ref-NeRF 開啟了更廣泛的應用場景,使其不僅是渲染品質的改進,更是一個實用的內容創作工具。
論證技巧 / 潛在漏洞
以具體的編輯範例(改變粗糙度、修改漫射顏色)展示可解釋性的實用價值,非常有效。但場景編輯的「物理合理性」僅是定性的判斷——未提供量化的物理準確度指標(如與真實 BRDF 的比較),這限制了對材質分解可靠性的評估。
5. Conclusion — 結論
We have shown that prior neural representations for view synthesis fail to accurately represent and render scenes with specularities and reflections. We proposed Ref-NeRF, which addresses this by reparameterizing the outgoing radiance as a function of the reflection direction rather than the viewing direction, encoding this direction with an Integrated Directional Encoding that accounts for material roughness, and regularizing surface normals to concentrate density at true surfaces. These modifications yield state-of-the-art rendering quality on scenes with complex specular appearance while producing an interpretable representation that enables practical scene editing.
我們已證明先前的神經視角合成表示方法無法準確表示與渲染具有鏡面反射的場景。我們提出 Ref-NeRF,透過將出射輻射重參數化為反射方向而非觀看方向的函數、以考量材質粗糙度的整合方向編碼來編碼此方向、以及正則化表面法向量以將密度集中於真實表面來解決此問題。這些修改在具有複雜鏡面外觀的場景上達到了最先進的渲染品質,同時產生可解釋的表示以實現實用的場景編輯。
段落功能
總結核心貢獻——重申三項技術修改與兩項成果。
邏輯角色
結論段呼應摘要的結構,將三項技術貢獻(反射參數化、IDE、正則化)與兩項成果(渲染品質、場景編輯)簡潔地收束。形成完整的論證閉環。
論證技巧 / 潛在漏洞
結論精煉且直截了當,但未討論方法的局限性(如計算成本增加、對各向異性反射的處理不足、對非遠距照明的限制)。作為一篇獲獎論文,更坦誠地討論局限性會增強學術嚴謹度。
While Ref-NeRF significantly improves upon previous top-performing neural scene representations for view synthesis, it requires increased computation — making our model roughly 25% slower than mip-NeRF. The method also does not explicitly model interreflections or non-distant illumination, so our improvement upon mip-NeRF is reduced in scenes with strong near-field lighting or complex light transport. Future work could integrate more sophisticated light transport models and extend the approach to handle dynamic scenes and relighting. The structured, physically-motivated representation of Ref-NeRF provides a solid foundation for such extensions, as each component can be independently refined or replaced with more physically accurate models.
儘管 Ref-NeRF 顯著改進了先前表現最佳的神經場景表示方法,但它需要增加的計算量——使我們的模型大約比 mip-NeRF 慢 25%。該方法也未明確建模互反射或非遠距照明,因此在具有強近場照明或複雜光線傳輸的場景中,相對於 mip-NeRF 的改進幅度會降低。未來研究可整合更精密的光線傳輸模型,並將方法擴展至處理動態場景與重新打光。Ref-NeRF 結構化且具物理動機的表示為這類擴展提供了堅實的基礎,因為每個組件都可以獨立地被改進或替換為更具物理精確度的模型。
段落功能
誠實自評——討論方法的局限性並展望未來方向。
邏輯角色
此段平衡了前段的成就宣言,坦誠承認計算成本增加與照明模型的限制。未來展望(動態場景、重新打光)也為後續研究指出了明確方向。
論證技巧 / 潛在漏洞
25% 的速度降低在 NeRF 領域中是可接受的,此誠實揭露增強了論文的可信度。將模組化設計框架為「未來擴展的基礎」是巧妙的收尾——將當前的局限性轉化為未來研究的機會,同時突顯方法的架構靈活性。
論證結構總覽
問題
NeRF 無法準確渲染
光澤與鏡面反射表面
NeRF 無法準確渲染
光澤與鏡面反射表面
→
論點
以反射方向取代觀看方向
結構化視角相關外觀
以反射方向取代觀看方向
結構化視角相關外觀
→
證據
Shiny Blender PSNR +6dB
法向量精度改善 69%
Shiny Blender PSNR +6dB
法向量精度改善 69%
→
反駁
計算成本僅增加 25%
IDE 優雅處理粗糙度
計算成本僅增加 25%
IDE 優雅處理粗糙度
→
結論
結構化表示實現最先進
渲染品質與場景編輯
結構化表示實現最先進
渲染品質與場景編輯
作者核心主張(一句話)
透過將 NeRF 的視角相關外觀重參數化為反射方向的函數,並以整合方向編碼與法向量正則化加以結構化,可大幅改善光澤表面的渲染品質並獲得可解釋、可編輯的場景表示。
論證最強處
反射方向參數化的理論優雅性與實驗驗證:以「平面鏡上函數為常數」的簡潔論證說明重參數化的必要性,並以消融實驗中 6.5 dB 的 PSNR 差距壓倒性地驗證了此設計。整合方向編碼中粗糙度作為低通濾波器的物理類比,更進一步強化了方法的理論基礎。
論證最弱處
評估範疇的完整性:方法假設旋轉對稱 BRDF,對各向異性反射(如拉絲金屬)的處理能力未被探討。Shiny Blender 資料集為自行設計,缺乏社群公認的光澤物體基準。此外,材質分解的物理準確度僅以定性方式展示(場景編輯範例),缺乏與真實 BRDF 的量化比較。