Abstract — 摘要
We present a method that achieves state-of-the-art results for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of input views. Our algorithm represents a scene using a fully-connected (non-convolutional) deep network, whose input is a single continuous 5D coordinate (spatial location and viewing direction) and whose output is the volume density and view-dependent emitted radiance at that spatial location. We synthesize views by querying 5D coordinates along camera rays and use classic volume rendering techniques to project the output colors and densities into an image.
我們提出一種方法,透過使用稀疏的輸入視角集合最佳化底層的連續體積場景函數,在複雜場景的新視角合成上達到最先進的成果。我們的演算法使用一個全連接(非摺積)深度網路來表徵場景,其輸入為單一連續五維座標(空間位置與觀看方向),輸出為該空間位置的體積密度與視角相關的發射輻射。我們沿相機光線查詢五維座標來合成視角,並使用經典體積渲染技術將輸出的色彩與密度投影到影像上。
段落功能
全文總覽——定義 NeRF 的核心表徵(5D 連續函數)與渲染流程。
邏輯角色
建立「輸入(稀疏視角)→ 表徵(神經輻射場)→ 輸出(新視角影像)」的完整論述框架。
論證技巧 / 潛在漏洞
以「非摺積」強調與主流 CNN 架構的差異性。但全連接網路在每個場景上都需重新訓練的成本未被提及。
1. Introduction — 緒論
In this work, we address the long-standing problem of view synthesis — generating photorealistic novel views of a scene from a set of input photographs. Existing approaches using discrete representations such as triangle meshes or voxel grids are fundamentally limited by their discrete nature, which requires prohibitively large storage for high-resolution complex scenes. We propose to represent a continuous scene as a 5D neural radiance field — a multilayer perceptron (MLP) that maps a 3D location and 2D viewing direction to color and density. This continuous representation naturally handles arbitrary resolution and avoids the storage limitations of discrete methods.
在本研究中,我們處理視角合成這個長久以來的問題——從一組輸入照片生成場景的逼真新視角。使用離散表徵的現有方法,如三角網格或體素網格,根本上受到其離散本質的限制,對於高解析度複雜場景需要極大的儲存空間。我們提議以五維神經輻射場——一個將三維位置和二維觀看方向映射到色彩與密度的多層感知器(MLP)來表徵連續場景。這種連續表徵自然地處理任意解析度,避免了離散方法的儲存限制。
段落功能
建立動機——透過批判離散表徵的限制,引出連續神經表徵的必要性。
邏輯角色
經典的「問題界定→現有缺陷→本文提案」論證結構,清晰地建立了研究缺口。
論證技巧 / 潛在漏洞
將離散表徵的「儲存限制」框定為根本性問題是有效的修辭,但 MLP 的推論速度遠低於離散查找,這一取捨未被討論。
While neural networks have been used for implicit scene representations before, prior work has been limited to simple scenes with low geometric complexity. We overcome this by introducing two key improvements: positional encoding of input coordinates to enable the MLP to represent high-frequency functions, and a hierarchical sampling strategy that efficiently allocates samples to regions with visible scene content. Together, these allow us to represent complex real-world scenes with unprecedented photorealistic quality.
雖然神經網路此前已被用於隱式場景表徵,但先前的工作僅限於幾何複雜度較低的簡單場景。我們透過引入兩項關鍵改進來克服此問題:對輸入座標進行位置編碼,使 MLP 能夠表徵高頻函數;以及分層採樣策略,將樣本高效分配到具有可見場景內容的區域。這些改進結合起來,使我們能夠以前所未有的逼真品質表徵複雜的真實世界場景。
段落功能
技術創新——指出兩項使 NeRF 從先前隱式表徵中脫穎而出的關鍵改進。
邏輯角色
回應先前工作的局限,以具體技術手段(位置編碼 + 分層採樣)建立差異化優勢。
論證技巧 / 潛在漏洞
位置編碼後來被證明是 NeRF 成功的關鍵因素之一,此處的識別展現了深刻的技術洞察。
2. Neural Radiance Field Scene Representation — 神經輻射場場景表徵
We represent a continuous scene as a 5D vector-valued function whose input is a 3D location x = (x, y, z) and 2D viewing direction (theta, phi), and whose output is an emitted color c = (r, g, b) and volume density sigma. In practice, we express direction as a 3D Cartesian unit vector d. We approximate this continuous function with an MLP network F_Theta: (x, d) -> (c, sigma) and optimize its weights Theta to map from each input 5D coordinate to its corresponding volume density and directional emitted color. We encourage the representation to be multiview consistent by restricting the network to predict volume density sigma as a function of only the location x, while allowing the color c to be predicted as a function of both location and viewing direction.
我們將連續場景表徵為一個五維向量值函數,其輸入為三維位置 x = (x, y, z) 和二維觀看方向 (theta, phi),輸出為發射色彩 c = (r, g, b) 和體積密度 sigma。實務上,我們以三維笛卡爾單位向量 d 表示方向。我們使用 MLP 網路 F_Theta: (x, d) -> (c, sigma) 來近似此連續函數,並最佳化其權重 Theta 將每個輸入的五維座標映射到對應的體積密度和方向性發射色彩。我們透過限制網路僅以位置 x 為函數來預測體積密度 sigma,同時允許色彩 c 作為位置與觀看方向兩者的函數來預測,以此鼓勵表徵具有多視角一致性。
段落功能
核心表徵定義——完整描述 NeRF 的 5D 函數形式與多視角一致性設計。
邏輯角色
此為全文的技術核心,密度僅依賴位置、色彩同時依賴方向的設計確保了物理合理性。
論證技巧 / 潛在漏洞
密度與色彩的不對稱依賴是精妙的歸納偏置,符合物理直覺(物體的存在不因觀看角度而改變,但外觀會隨角度變化)。
2.1 Volume Rendering with Radiance Fields — 體積渲染
We render the color of any ray passing through the scene using classical volume rendering principles. The volume density sigma(x) can be interpreted as the differential probability of a ray terminating at an infinitesimal particle at location x. The expected color C(r) of camera ray r(t) = o + td with near and far bounds t_n and t_f is computed by integrating the color weighted by the accumulated transmittance along the ray. In practice, we estimate this integral using stratified sampling, dividing [t_n, t_f] into N evenly-spaced bins and drawing one sample uniformly at random from within each bin.
我們使用經典體積渲染原理來渲染穿過場景的任何光線的色彩。體積密度 sigma(x) 可解讀為光線在位置 x 處的無窮小粒子上終止的微分機率。相機光線 r(t) = o + td 在近遠界限 t_n 和 t_f 之間的期望色彩 C(r),透過沿光線對色彩以累積透射率加權進行積分來計算。實務上,我們使用分層採樣來估計此積分,將 [t_n, t_f] 分為 N 個等距區間,並從每個區間中均勻隨機抽取一個樣本。
段落功能
渲染機制——將神經輻射場連接到影像生成的具體步驟。
邏輯角色
橋接「表徵」與「輸出」:說明如何從學到的 5D 函數實際產生 2D 影像。
論證技巧 / 潛在漏洞
借用成熟的體積渲染理論為神經表徵提供了物理基礎,增強了方法的可解釋性。但逐光線的渲染方式計算量極大,限制了即時應用。
2.2 Positional Encoding — 位置編碼
Despite containing universal approximation properties, we found that having the network F_Theta directly operate on (x, d) input coordinates results in poor performance at representing high-frequency variation in color and geometry. This is consistent with recent work showing that deep networks are biased towards learning lower frequency functions — a phenomenon known as spectral bias. We address this by mapping the inputs to a higher dimensional space using high frequency functions gamma(p) = (sin(2^0 pi p), cos(2^0 pi p), ..., sin(2^{L-1} pi p), cos(2^{L-1} pi p)) before passing them to the network. This positional encoding enables the MLP to more easily approximate higher frequency functions.
儘管具備通用近似性質,我們發現讓網路 F_Theta 直接作用於 (x, d) 輸入座標,在表徵色彩和幾何的高頻變化上效果不佳。這與近期研究一致,後者顯示深度網路偏向於學習低頻函數——此現象稱為頻譜偏差。我們透過在傳入網路前,使用高頻函數 gamma(p) = (sin(2^0 pi p), cos(2^0 pi p), ..., sin(2^{L-1} pi p), cos(2^{L-1} pi p)) 將輸入映射到更高維的空間來解決此問題。這種位置編碼使 MLP 能更容易地近似高頻函數。
段落功能
關鍵創新——位置編碼解決 MLP 的頻譜偏差問題。
邏輯角色
此為 NeRF 從「理論可行」到「實際有效」的關鍵跳躍。位置編碼後來成為整個神經場領域的基礎技術。
論證技巧 / 潛在漏洞
援引「頻譜偏差」這一已知現象來佐證設計選擇,增強了理論基礎。頻率的選擇(L 的大小)對結果有顯著影響,但選擇策略的討論較簡略。
3. Results — 實驗
We quantitatively evaluate NeRF on both synthetic and real-world scenes. On the synthetic dataset of 8 complex scenes, NeRF achieves an average PSNR of 31.01 dB, compared to 26.50 dB for SRN, 27.81 dB for LLFF, and 24.15 dB for NV. On real forward-facing scenes, NeRF achieves 26.50 dB PSNR, outperforming all baselines. The visual quality shows sharp details, accurate specular reflections, and coherent geometry that prior methods fail to capture.
我們在合成和真實世界場景上定量評估 NeRF。在包含 8 個複雜場景的合成資料集上,NeRF 達到平均 31.01 dB 的 PSNR,相較之下 SRN 為 26.50 dB、LLFF 為 27.81 dB、NV 為 24.15 dB。在真實的前向場景上,NeRF 達到 26.50 dB 的 PSNR,超越所有基線方法。視覺品質展現出銳利的細節、準確的鏡面反射與一致的幾何結構,這些是先前方法無法捕捉的。
段落功能
定量與定性評估——展示 NeRF 在多個基準上的全面優勢。
邏輯角色
以 4-7 dB 的大幅領先(在合成場景上)建立無可爭議的效能優勢,支撐核心宣稱。
論證技巧 / 潛在漏洞
定量指標的領先幅度極為顯著(PSNR 每增加 3 dB 約等於品質翻倍)。但評估僅限於靜態場景,動態場景的適用性未被探討。
We perform an ablation study to analyze the contribution of each component. Removing positional encoding reduces PSNR by more than 4 dB, confirming its critical role. Removing view dependence reduces PSNR by about 1 dB and eliminates specular effects. Replacing the hierarchical sampling with uniform sampling reduces quality and increases training time. Each component is shown to contribute meaningfully to the final performance.
我們進行消融研究以分析各組件的貢獻。移除位置編碼使 PSNR 降低超過 4 dB,確認了其關鍵作用。移除視角依賴性使 PSNR 降低約 1 dB並消除鏡面效果。將分層採樣替換為均勻採樣會降低品質並增加訓練時間。每個組件均被證明對最終效能有顯著貢獻。
段落功能
消融分析——驗證各設計選擇的必要性。
邏輯角色
將整體效能的提升歸因於具體的設計選擇,使每個創新點都有實驗證據支持。
論證技巧 / 潛在漏洞
位置編碼 4 dB 的影響遠大於其他組件,揭示了方法成功的核心因素。消融設計完整且具說服力。
4. Conclusion — 結論
We have presented neural radiance fields (NeRF), a method that represents scenes as continuous 5D functions parameterized by neural networks for photorealistic view synthesis. Our approach achieves unprecedented visual quality by leveraging positional encoding and hierarchical volume sampling. While our method requires per-scene optimization and is computationally intensive, we believe that neural radiance fields open up a promising new direction for representing and rendering 3D scenes from captured images.
我們提出了神經輻射場(NeRF),一種將場景表徵為以神經網路參數化的連續五維函數以實現逼真視角合成的方法。我們的方法透過利用位置編碼和分層體積採樣達到了前所未有的視覺品質。雖然我們的方法需要逐場景最佳化且計算密集,但我們相信神經輻射場為從捕獲的影像表徵和渲染三維場景開闢了一個充滿希望的新方向。
段落功能
總結並展望——重申貢獻,坦承限制,指出未來方向。
邏輯角色
以開放性的展望結尾,將技術成果提升至研究範式的層次。
論證技巧 / 潛在漏洞
坦承「逐場景最佳化」和「計算密集」的限制是誠實的科學態度。後續的大量研究(NeRF 的引用量已超過萬次)證明了作者「新方向」的預言極為準確。
論證結構總覽
問題
離散表徵限制視角合成
離散表徵限制視角合成
→
論點
連續神經場可突破限制
連續神經場可突破限制
→
方法
5D MLP + 位置編碼
5D MLP + 位置編碼
→
證據
PSNR 大幅領先基線
PSNR 大幅領先基線
→
結論
開創神經場新範式
開創神經場新範式
核心主張
透過將場景表徵為以 MLP 參數化的連續五維輻射場,結合位置編碼與分層採樣,可實現前所未有品質的新視角合成。
論證最強處
在合成與真實場景上均大幅超越先前方法(4-7 dB),消融實驗清楚地歸因於各設計選擇,且視覺品質差異肉眼可辨。
論證最弱處
每個場景需數小時的獨立訓練、僅處理靜態場景、推論速度慢,這些根本性限制在論文中僅簡短提及而未深入討論。