摘要 1. 緒論 2. 相關工作 3. 背景 4. 方法 4.2 時間解析輻射快取 4.3 逆渲染 5. 實驗結果 6. 討論 論證總覽

Abstract — 摘要

We introduce the first system for physically-based neural inverse rendering from multi-viewpoint videos of propagating light. Our approach extends neural radiance caching through time-resolved techniques, storing infinite-bounce radiance at any point from any direction. The model accounts for direct and indirect light transport, enabling state-of-the-art 3D reconstruction with strong indirect light from flash lidar systems. Additional capabilities include view synthesis of propagating light, decomposition of measurements into direct and indirect components, and multi-view time-resolved relighting.
本文提出首個基於物理的神經逆渲染系統,能從傳播光的多視角影片中恢復場景屬性。我們的方法透過時間解析技術擴展神經輻射快取,儲存任意點、任意方向的無限次反射輻射值。此模型同時考慮直接與間接光傳輸,能在具有強烈間接光的閃光光達系統下達成最先進的三維重建。額外功能包含傳播光的視角合成、將量測訊號分解為直接與間接成分,以及多視角時間解析重新打光
段落功能 全文總覽——以遞進方式從「逆渲染」到「時間解析輻射快取」,最終列舉系統的多項能力。
邏輯角色 摘要承擔「問題定義與貢獻預告」的雙重功能:先以「首個」宣示新穎性,再以能力清單展示系統的廣泛適用性。
論證技巧 / 潛在漏洞 「首個」的宣稱極具學術衝擊力,有效建立了研究的獨特定位。然而,「無限次反射」的表述需在方法章節中驗證——實際上輻射快取是以近似方式處理多次反射,而非真正的無限遞迴求解。

1. Introduction — 緒論

Ultrafast imaging systems like lidar illuminate scenes with light pulses and capture backscattered echoes from propagating wavefronts. Precise measurement of speed-of-light time delays enables 3D reconstruction, making lidar systems popular in autonomous driving, augmented reality, and remote sensing applications. Conventional lidar relies on time-resolved measurements of direct light transport — light reflecting directly from surfaces back to sensors. Measurements of indirect light transport, involving multiple scattering events before sensor arrival, are typically ignored or discarded because modeling indirect light requires computationally expensive inverse rendering using recursive path tracing procedures. However, indirect light measurements provide rich information about material properties, appearance, and geometry.
光達等超快成像系統以光脈衝照射場景,並捕捉傳播波前的反向散射回波。透過精確量測光速時間延遲,可進行三維重建,使光達系統廣泛應用於自動駕駛、擴增實境與遙測領域。傳統光達依賴直接光傳輸的時間解析量測——即光從表面直接反射回感測器。涉及多次散射事件的間接光傳輸量測通常被忽略或丟棄,因為建模間接光需要透過遞迴路徑追蹤進行計算成本極高的逆渲染。然而,間接光量測提供了關於材質屬性、外觀與幾何的豐富資訊
段落功能 建立研究場域——從光達技術的廣泛應用切入,指出間接光被忽略的現狀。
邏輯角色 論證鏈的起點:先肯定光達的價值,再揭示「間接光被丟棄」這一核心缺口,為本文方法鋪路。以應用場景(自駕、AR、遙測)建立實用性動機。
論證技巧 / 潛在漏洞 「豐富資訊」的主張是全文的核心假設,但作者尚未提供量化證據說明間接光對最終重建品質的提升幅度。此處以直覺性論述建立動機,具體驗證留待實驗章節。
Conventional lidar systems pre-process captured time-resolved measurements into 3D point clouds representing geometry estimates based on direct light transport. Recent work leverages multi-viewpoint lidar measurements for 3D reconstruction and novel view synthesis, but existing methods use point cloud representations or direct-only time-resolved measurements, thus ignoring indirect light. The work relates closely to Malik et al., which uses lidar measurements and neural radiance fields representations to render videos of propagating light from novel viewpoints. However, while their representation is effective for view synthesis, it lacks a physically-based model, preventing accurate geometry reconstruction or scene rendering under novel illumination.
傳統光達系統將捕捉的時間解析量測預處理為基於直接光傳輸的三維點雲幾何估計。近期研究利用多視角光達量測進行三維重建與新視角合成,但現有方法採用點雲表示或僅考慮直接光的時間解析量測,從而忽略了間接光。本研究與 Malik 等人的工作密切相關,該研究使用光達量測與神經輻射場表示來從新視角渲染傳播光影片。然而,其表示雖對視角合成有效,卻缺乏基於物理的模型,無法進行精確的幾何重建或在新照明條件下渲染場景
段落功能 批判既有方法——系統性列舉現有光達重建方法的局限性。
邏輯角色 「問題—解決方案」論證中的問題深化:從傳統點雲方法的侷限到 Malik 等人缺乏物理模型的弱點,逐步收窄至本文要填補的精確缺口。
論證技巧 / 潛在漏洞 將 Malik 等人(作者自己的先前工作)定位為最接近的前作,既展現誠實也凸顯進步。但批評自己先前工作「缺乏物理模型」時,未詳述該工作在何種場景下仍有優勢,可能使讀者低估先前方法的適用性。
This paper proposes a method for inverse rendering from multi-viewpoint, time-resolved measurements of propagating light from flash lidar systems. The approach uses a hybrid neural representation, modeling geometry through volume rendering and appearance through a physically-based model simulating global illumination using a radiance cache. Instead of integrating light paths via path tracing, the radiance cache stores time-resolved radiance arriving at any point in a volume from any direction. The representation is optimized in an amortized fashion, eliminating recursive rendering integral evaluation. Our contributions include: (1) a method for neural inverse rendering of propagating light using physically-based models with time-resolved radiance caching; (2) a new multi-viewpoint, time-resolved flash lidar measurement dataset; and (3) demonstrations showing state-of-the-art geometry reconstruction under strong indirect light, and novel-view propagating light rendering in scenes with varying reflectance.
本文提出一種從閃光光達系統的多視角時間解析傳播光量測中進行逆渲染的方法。此方法採用混合神經表示,透過體積渲染建模幾何、透過模擬全域照明的基於物理模型建模外觀,並使用輻射快取。輻射快取儲存到達體積中任意點、來自任意方向的時間解析輻射值,而非透過路徑追蹤積分光路。該表示以攤銷方式最佳化,免除遞迴渲染積分的求解。本文貢獻包含:(1) 使用基於物理模型與時間解析輻射快取的傳播光神經逆渲染方法;(2) 全新的多視角時間解析閃光光達量測資料集;(3) 在強烈間接光下達成最先進幾何重建,以及在不同反射率場景中渲染新視角傳播光的展示
段落功能 提出解決方案——完整概述方法架構並明列三項貢獻。
邏輯角色 承接上段的問題陳述,此段扮演「轉折」角色:從「現有方法不足」過渡到「本文方案」。攤銷最佳化直接回應「遞迴路徑追蹤計算成本高」的缺陷,輻射快取回應「物理模型缺失」的問題。
論證技巧 / 潛在漏洞 三項貢獻的清單式呈現使讀者一目了然。「攤銷方式最佳化」是關鍵的技術選擇——它以訓練時間換取推論時的效率,但訓練成本是否可接受需待實驗驗證。作者在討論章節坦承最佳化需超過一天。
Time-of-flight systems such as lidar measure flight times by marking backscattered pulse arrival times. These systems typically combine nanosecond or picosecond pulsed lasers with fast photodiodes or single-photon avalanche diodes (SPADs) to measure ultrafast light variations. Resulting time-resolved measurements capture direct and indirect light transport, recording videos of propagating light at ultrafast timescales. This work uses lidar systems with picosecond pulsed lasers and SPADs to capture multi-view propagating light videos. This work is the first to capture multi-view photon count histogram datasets where both flash lidar light sources and sensors vary in position, and develops the first physically-based time-resolved inverse rendering technique using multi-viewpoint propagating light videos.
飛行時間系統(如光達)透過標記反向散射脈衝的到達時間來量測飛行時間。這些系統通常結合奈秒或皮秒脈衝雷射與快速光電二極體或單光子崩潰二極體(SPAD),以量測超快光變化。所得的時間解析量測捕捉直接與間接光傳輸,記錄超快時間尺度上的傳播光影片。本研究使用搭載皮秒脈衝雷射與 SPAD 的光達系統,捕捉多視角傳播光影片。本研究首次捕捉閃光光達光源與感測器皆改變位置的多視角光子計數直方圖資料集,並開發出首個使用多視角傳播光影片的基於物理時間解析逆渲染技術
段落功能 文獻回顧——概述時間解析成像的硬體基礎與本文的定位。
邏輯角色 以硬體層面的技術發展為背景,建立本研究的感測器基礎。兩個「首次」的宣稱同時出現,強化了本文在資料集與方法上的雙重新穎性。
論證技巧 / 潛在漏洞 將硬體背景與方法創新並列呈現,使讀者理解此工作不僅是演算法創新,也涉及實驗設置的創新。然而,對連續波飛行時間(CW-ToF)系統的比較相對簡略,可能忽略其在某些應用場景中的優勢。
Time-resolved path-tracing renderers simulate propagating light wavefronts and account for birefringence, refraction, and volumetric scattering effects. Recently, differentiable time-resolved renderers have been developed; however, robust analysis-by-synthesis scene reconstruction using these methods remains an open problem due to computational complexity and sensitivity to initialization and noise. In the area of non-line-of-sight (NLOS) imaging, techniques model two-bounce, three-bounce, or higher-order scattering events to recover occluded geometry. This work performs physically-based modeling of multiply scattered light without restrictive assumptions on scene geometry or material properties, integrating the approach into inverse rendering frameworks for captured multi-viewpoint experiments.
時間解析路徑追蹤渲染器模擬傳播光波前,並考慮雙折射、折射與體積散射效應。近期已開發出可微分的時間解析渲染器;然而,使用這些方法進行穩健的分析合成式場景重建,由於計算複雜度及對初始化與雜訊的敏感性,仍是開放問題。在非視線成像(NLOS)領域中,相關技術建模二次、三次或更高階散射事件以恢復遮蔽幾何。本研究在不對場景幾何或材質屬性施加限制性假設的前提下,進行多次散射光的基於物理建模,並將此方法整合至已捕捉多視角實驗的逆渲染框架中。
段落功能 文獻定位——將本方法放置於時間解析渲染與 NLOS 成像的學術脈絡中。
邏輯角色 此段建立關鍵區分:可微分渲染器雖有潛力但不穩定,NLOS 方法需限制性假設。本方法無需這些限制,佔據了更廣泛的適用空間。
論證技巧 / 潛在漏洞 「無需限制性假設」的宣稱需謹慎檢視——實際上該方法仍假設 Disney-GGX BRDF 模型、點光源近似等,這些本身也是對真實場景的簡化。作者的措辭更精確地說是「較少」而非「無」限制性假設。
Inverse rendering aims to recover scene attributes like materials, lighting, and geometry from images. Recent physically-based rendering techniques using NeRFs have made inverse rendering considerably more robust, but either consider only direct illumination or require explicitly simulating multiple light bounces to model indirect light, which is computationally expensive. Another approach uses radiance caches — data structures storing hemispheric incoming radiance at every point. Combining radiance caches with NeRFs leads to more efficient indirect light modeling. However, no previous technique performs physically-based inverse rendering from multi-viewpoint time-resolved measurements. This work develops a new time-resolved radiance cache enabling neural inverse rendering from propagating light videos.
逆渲染旨在從影像中恢復材質、照明與幾何等場景屬性。近期使用 NeRF 的基於物理渲染技術使逆渲染更加穩健,但要麼僅考慮直接照明,要麼需要顯式模擬多次光反射來建模間接光,這在計算上代價高昂。另一種方法使用輻射快取——在每個點儲存半球入射輻射的資料結構。將輻射快取與 NeRF 結合可實現更高效的間接光建模。然而,此前沒有任何技術從多視角時間解析量測中進行基於物理的逆渲染。本研究開發了全新的時間解析輻射快取,實現從傳播光影片的神經逆渲染
段落功能 確立研究缺口——指出現有逆渲染方法在時間解析維度的空白。
邏輯角色 整個相關工作章節的收束:三個子節分別從成像、渲染、逆渲染三條脈絡彙聚於同一結論——時間解析的基於物理逆渲染尚無人涉足。這為本文的貢獻提供了最強的動機支撐。
論證技巧 / 潛在漏洞 以「沒有任何先前技術」做為相關工作章節的結尾,是經典的「填補空白」論證策略。輻射快取作為技術橋樑被巧妙引入——它既是已驗證的有效工具,又自然地延伸至時間解析領域,降低了讀者對新方法可行性的疑慮。

3. Background: Radiance Caching with NeRFs — 背景:NeRF 輻射快取

The rendering equation models outgoing radiance in direction ωo at point x along ray x(t) = o − tωo: Lo(x(t), ωo) = ∫Ω f(x, ωi, ωo) Li(x, ωi) (n · ωi) dωi. The equation integrates incident radiance Li arriving to x from direction ωi, weighted by the BRDF f, over the positive hemisphere with respect to normal n. Naive evaluation leads to exponential computation increases since the equation must be evaluated recursively to compute incident radiance.
渲染方程式建模在點 x 沿射線 x(t) = o - tωo 的方向 ωo 上的出射輻射。此方程式對入射輻射 Li(從方向 ωi 到達 x)以 BRDF f 加權後,在法向量 n 的正半球上進行積分。直接求解會導致計算量指數級增長,因為必須遞迴地求解入射輻射
段落功能 數學基礎鋪設——定義渲染方程式並指出其計算瓶頸。
邏輯角色 此段為後續所有技術推導的數學起點。遞迴求解的指數增長問題直接引出輻射快取的必要性。
論證技巧 / 潛在漏洞 先呈現「困難」再提供「解決方案」是標準的技術寫作手法。渲染方程式的遞迴性質是電腦圖學的基礎知識,此處的複述為非專業讀者提供了必要背景。
To avoid this computational penalty, radiance caching removes the problematic recursion by replacing incident radiance Li in the rendering equation with cache lookups Licache. The integral can be efficiently approximated through cache sampling and BRDF sampling using multiple importance sampling. Recent work demonstrates that NeRFs provide accurate radiance cache modeling. Specifically, Licache(x, ωi) can be computed by volume rendering the NeRF along a secondary ray, where outgoing radiance at each secondary ray point is predicted by the NeRF and combined using quadrature weights accounting for transmittance and absorption along the ray.
為避免此計算代價,輻射快取透過以快取查詢 Licache 取代渲染方程式中的入射輻射 Li,移除了棘手的遞迴。此積分可透過快取取樣與 BRDF 取樣的多重重要性取樣有效地近似。近期研究證明 NeRF 能提供精確的輻射快取建模。具體而言,Licache 可透過沿次級射線對 NeRF 進行體積渲染來計算,其中次級射線上每個點的出射輻射由 NeRF 預測,並以考慮射線上透射率與吸收的正交權重加以組合
段落功能 技術引介——解釋輻射快取如何解決遞迴問題。
邏輯角色 此段是從「傳統渲染」過渡到「本文方法」的橋樑:先建立穩態輻射快取的概念,再由此自然延伸到時間解析版本。NeRF 作為快取的參數化工具被確立。
論證技巧 / 潛在漏洞 將已有的穩態輻射快取作為「已驗證的基礎設施」引入,降低了讀者對新方法的技術門檻。但這也暗示本方法的核心創新在於「時間解析化」的擴展,而非輻射快取本身——讀者可能質疑此擴展的技術深度。

4. Method — 方法

4.1 Physically-Based Time-Resolved Rendering — 基於物理的時間解析渲染

A lidar measurement is modeled by casting a primary ray x(t) = o − tωo into the scene. The time-resolved rendering equation is a modified version of the standard rendering equation, adding time of flight τ: Lo(x(t), ωo, τ) = ∫Ω f(x(t), ωi, ωo) Li(x(t), ωi, τ) (n · ωi) dωi. The reflectance f is modeled using the Disney-GGX BRDF, depending on scene material properties. Incident radiance is decomposed into two components: Li = Lidir + Licache, comprising a direct component and an indirect component evaluated using the radiance cache.
光達量測透過向場景投射主射線 x(t) = o - tωo 來建模。時間解析渲染方程式是標準渲染方程式的修改版本,加入了飛行時間 τ。反射率 f 使用 Disney-GGX BRDF 建模,取決於場景材質屬性。入射輻射被分解為兩個成分:直接成分 Lidir 與透過輻射快取求值的間接成分 Licache
段落功能 核心公式推導——定義時間解析渲染方程式與入射輻射的分解。
邏輯角色 此段是全文方法論的數學核心。在穩態渲染方程式中加入飛行時間 τ 是看似簡單但影響深遠的修改——它將整個渲染框架從「空間域」擴展到「時空域」。
論證技巧 / 潛在漏洞 將入射輻射分解為直接與間接成分是關鍵的設計決策。直接成分可解析求解(已知光源位置),間接成分交由快取處理。此分解策略有效地將無限遞迴問題轉化為「一次直接 + 快取查詢」的高效結構。
The direct component models light emitted from the lidar source at xl, propagating to scene point x, and scattering directly back to the sensor. It is given as: Lidir(x(t), ωi, τ) = δ(ωl − ωi) Lill, τ − ||x(t) − xl|| / c) / ||x(t) − xl||². The model accounts for inverse-square law intensity falloff and time delay to position x(t) based on light speed c. The time-resolved radiance cache Licache is evaluated using secondary rays cast from primary ray points, applying time-resolved volume rendering where light incident at a point is the sum of delayed copies of light leaving each point along the secondary ray, with delays depending on distance.
直接成分建模從光達光源 xl 發出、傳播至場景點 x 並直接散射回感測器的光。此模型考慮了反平方律強度衰減以及基於光速 c 到位置 x(t) 的時間延遲。時間解析輻射快取 Licache 透過從主射線點投射的次級射線來求值,應用時間解析體積渲染,其中到達某點的入射光是沿次級射線各點離開光的延遲副本之總和,延遲量取決於距離。
段落功能 詳細推導——分別定義直接光與間接光的時間解析渲染公式。
邏輯角色 此段將抽象的時間解析渲染方程式具體化:直接光有解析解(Dirac delta 函數),間接光透過次級射線的體積渲染近似。「延遲副本之總和」是整個時間解析框架的物理直覺。
論證技巧 / 潛在漏洞 反平方律與光速延遲的顯式建模展現了方法的物理嚴謹性。然而,點光源假設(Dirac delta)在實際閃光光達中可能不完全成立——實際光源有一定的空間與時間分布,作者在附錄中透過校準程序處理此問題。

4.2 Time-Resolved Radiance Cache — 時間解析輻射快取

The cache is parameterized using multi-resolution hash encoding Happ to learn position-dependent appearance feature fapp. Similarly, hash encoding-based neural network Ngeom represents scene geometry through density and normals. Density values used for volume rendering are shared across both the physically-based model and radiance cache, ensuring geometric consistency. The radiance cache output is decomposed into direct and indirect components: Locache = Locache,dir + Locache,indir. The direct component uses a neural network learning the BRDF, while the indirect component employs a split-sum approximation that efficiently factorizes the integral into a product of an integrated BRDF term and an integrated incident radiance term, both predicted by neural networks.
快取使用多解析度雜湊編碼 Happ 來學習位置相依的外觀特徵 fapp。類似地,基於雜湊編碼的神經網路 Ngeom 透過密度與法向量表示場景幾何。用於體積渲染的密度值在基於物理模型與輻射快取之間共享,確保幾何一致性。輻射快取的輸出分解為直接與間接成分。直接成分使用學習 BRDF 的神經網路,間接成分則採用分裂求和近似,將積分有效地分解為積分 BRDF 項與積分入射輻射項的乘積,兩者皆由神經網路預測。
段落功能 架構細節——描述輻射快取的神經網路參數化與分解策略。
邏輯角色 此段是方法論的工程核心。密度共享確保幾何一致性,分裂求和近似確保計算效率。兩者結合使得時間解析逆渲染在實際硬體上可行。
論證技巧 / 潛在漏洞 多解析度雜湊編碼是 Instant NGP 的成熟技術,此處的借用展現了良好的技術整合能力。分裂求和近似雖提升效率,但引入了因式分解誤差——在強烈方向性反射(如鏡面反射)場景中,此近似可能不夠精確。
A key design choice is that the indirect radiance component is conditioned on the light source position xl, because indirect light depends on where the light source illuminates the scene. Following Malik et al., Li,Ωindir predicts a vector representing radiance over discretized time intervals. The network fΩindir predicts the integrated BRDF and Li,Ωindir predicts the integrated incident radiance, both conditioned on appearance features, normals, outgoing direction, and light source position. This conditioning on xl enables relighting capabilities — by changing the light source position at inference time, the system can synthesize time-resolved measurements under novel illumination conditions.
一個關鍵的設計選擇是間接輻射成分以光源位置 xl 為條件,因為間接光取決於光源照射場景的位置。遵循 Malik 等人的做法,Li,Ωindir 預測一個表示離散時間區間上輻射的向量。網路 fΩindir 預測積分 BRDF,Li,Ωindir 預測積分入射輻射,兩者皆以外觀特徵、法向量、出射方向與光源位置為條件。此對 xl 的條件化賦予了重新打光能力——在推論時改變光源位置,系統即可合成新照明條件下的時間解析量測。
段落功能 設計動機——解釋光源位置條件化的物理直覺與實用價值。
邏輯角色 此段連結方法設計與應用能力:光源位置條件化不僅是物理正確的選擇,更直接賦予系統重新打光的功能。這是方法論與應用價值的交匯點。
論證技巧 / 潛在漏洞 將技術細節與應用能力直接關聯是說服力極強的寫作策略。然而,以光源位置為條件的間接光預測可能在光源位置遠離訓練分布時泛化能力有限——重新打光的品質可能隨光源偏移量增大而下降。

4.3 Inverse Rendering from Propagating Light — 從傳播光進行逆渲染

The representation is optimized by minimizing differences between lidar measurements and renderer output: Ldata = ∑ α(Licache) ||Li − Limeas||². The function α is chosen to more strongly penalize darker region errors, improving perceptual quality similar to tonemapping curves. A radiometric prior constrains cache-rendered direct and indirect light consistency with the full physically-based model, by supervising the cache with the physically-based model's outputs. The complete photometric loss function is: Ldata + λcache Lcache + λdir Ldir + λindir Lindir. By minimizing this loss, the method recovers scene material models (parameterized using Disney-GGX), scene geometry, normals, and appearance parameters.
該表示透過最小化光達量測與渲染器輸出之間的差異來最佳化。函數 α 被選擇為對較暗區域的誤差施加更強的懲罰,類似色調映射曲線以改善感知品質。一個輻射度量先驗約束快取渲染的直接與間接光與完整基於物理模型的一致性。完整的光度損失函數包含資料項、快取監督項、直接光一致性項與間接光一致性項。透過最小化此損失,該方法恢復場景材質模型(以 Disney-GGX 參數化)、場景幾何、法向量與外觀參數
段落功能 最佳化框架——定義損失函數與正則化策略。
邏輯角色 此段完成方法論的最後拼圖:從表示(4.1-4.2)到最佳化(4.3)。多項損失的加權組合確保幾何、材質與光傳輸的聯合恢復。
論證技巧 / 潛在漏洞 色調映射式的加權函數 α 是實用但啟發式的設計——它改善了暗區的重建品質,但引入了超參數 β 的敏感度。輻射度量先驗是維持物理一致性的關鍵約束,避免快取「走捷徑」學到非物理的解。
Beyond the photometric loss, the method includes a regularizer Lnormals tying predicted normals to analytic density field normals; a smoothness penalty Lgeom on analytic normals; a smoothness penalty Lmat on predicted BRDF parameters; proposal resampling and distortion losses from Zip-NeRF; and a mask loss Lmask. Multiple importance sampling is used for secondary rays based on BRDF and a learnable importance sampler for incident illumination. The learnable importance sampler is supervised with loss LvMF. Time-resolved direct outgoing light is represented as a one-hot vector where each bin corresponds to a discrete time interval, and indirect light as a dense vector of the same size.
除光度損失外,方法還包含:將預測法向量與解析密度場法向量綁定的正則項解析法向量的平滑懲罰項預測 BRDF 參數的平滑懲罰項來自 Zip-NeRF 的提議重取樣與失真損失;以及遮罩損失。次級射線採用基於 BRDF 的多重重要性取樣與用於入射照明的可學習重要性取樣器直接出射光以獨熱向量表示(每個區間對應一個離散時間區間),間接光以相同大小的密集向量表示
段落功能 完整方法細節——列舉所有正則化項與取樣策略。
邏輯角色 此段展示系統的工程完整性:多項正則化確保最佳化的穩定性與物理合理性。可學習重要性取樣器是提升取樣效率的關鍵組件。
論證技巧 / 潛在漏洞 大量正則化項的存在暗示裸損失函數不足以穩定最佳化——這是複雜物理模型的常見挑戰。直接光的獨熱與間接光的密集向量表示是巧妙的設計:前者利用了直接光的時間局部性,後者則捕捉間接光的時間擴散特性。

5. Results — 實驗結果

The system is evaluated on three tasks: (1) time-resolved lidar measurement view synthesis, (2) integrated steady-state lidar image view synthesis, and (3) geometry reconstruction. Rendered integrated lidar images are assessed using PSNR, SSIM, and LPIPS. Time-resolved measurement accuracy is evaluated using transient intersection-over-union (T-IOU). Mean absolute error and L1 error measure normal and depth accuracy, respectively. The method is compared to state-of-the-art baselines: T-NeRF, which accounts only for direct light; and Flying with Photons (FWP++), which predicts time-resolved radiance at every spatial point but lacks a physically-based model. Both baselines are implemented using the same hash-encoding-based neural representation, with identical regularizers and hyperparameters for fairness.
系統在三項任務上進行評估:(1) 時間解析光達量測的視角合成;(2) 積分穩態光達影像的視角合成;(3) 幾何重建。積分光達影像以 PSNR、SSIM 與 LPIPS 評估。時間解析量測精度以瞬態交並比(T-IOU)評估。法向量與深度精度分別以平均絕對誤差與 L1 誤差衡量。方法與最先進基線比較:僅考慮直接光的 T-NeRF,以及預測每個空間點時間解析輻射但缺乏基於物理模型的 FWP++。為公平起見,兩個基線均使用相同的雜湊編碼神經表示,以及相同的正則化器與超參數
段落功能 實驗設計——定義評估任務、指標與基線方法。
邏輯角色 此段為定量比較建立公平的評估框架。三項任務涵蓋了不同層面的能力驗證:視角合成(渲染品質)、幾何重建(場景理解),與時間解析精度(物理正確性)。
論證技巧 / 潛在漏洞 強調基線使用相同神經表示與超參數是確保公平性的有力舉措,消除了「架構差異」這一常見的實驗混淆因素。T-IOU 是作者先前工作提出的指標,使用自定指標可能引起偏見疑慮,但其定義具有物理直覺性。
On simulated scenes (Cornell box, pots, peppers, kitchen), the method achieves PSNR of 30.99 dB compared to T-NeRF's 22.44 dB and FWP++'s 29.00 dB. More critically, normal estimation MAE is 8.45 degrees versus T-NeRF's 28.00 and FWP++'s 22.80, demonstrating substantially better geometry recovery. Since T-NeRF models only direct light, it fails to recover accurate geometry under strong indirect light from specular reflections and diffuse inter-reflections, introducing floating artifacts. Conversely, FWP++ models both direct and indirect radiance but lacks a physically-accurate rendering model, causing it to overfit — it uses mirror scene copies to explain specular reflections and incorrect depths for diffuse inter-reflections.
模擬場景(康乃爾盒、壺、辣椒、廚房)上,本方法達到 30.99 dB 的 PSNR,相比 T-NeRF 的 22.44 dB 與 FWP++ 的 29.00 dB。更關鍵的是,法向量估計 MAE 為 8.45 度,遠優於 T-NeRF 的 28.00 度與 FWP++ 的 22.80 度,展現了顯著更佳的幾何恢復。由於 T-NeRF 僅建模直接光,在強烈間接光(鏡面反射與漫反射互射)下無法恢復精確幾何,產生浮動偽影。相反地,FWP++ 雖建模直接與間接輻射,但缺乏基於物理的精確渲染模型而導致過擬合——它使用鏡像場景副本來解釋鏡面反射,並以錯誤深度解釋漫反射互射
段落功能 定量驗證——以模擬資料的數值結果證明方法的優越性。
邏輯角色 此段是全文最強的實證支柱:法向量 MAE 從 28.00/22.80 降至 8.45,改進幅度極為顯著。同時分析基線失敗的具體原因,展現了物理建模的關鍵性。
論證技巧 / 潛在漏洞 對基線失敗模式的詳細分析(浮動偽影、鏡像副本)具有極強的說服力——不僅展示「我們更好」,更解釋「為什麼更好」。然而,模擬場景相對簡單(物件級場景),在更複雜的真實場景中是否仍能維持此優勢需待進一步驗證。
On captured scenes (globe, house, spheres, statue), the method demonstrates more accurate geometry recovery than FWP++, especially for areas with indirect light presence, such as wall corners and candle bottoms. However, FWP++ shows slight view synthesis improvements in captured data — the physically-grounded approach may be more sensitive to system calibration and model mismatch. The approach further enables time-resolved view synthesis and relighting, which has not previously been demonstrated from captured multi-view, time-resolved measurements. The system also demonstrates time-resolved imaging without lidar supervision — the model can be trained using continuous-wave time-of-flight measurements or even intensity images, recovering direct and indirect light transport effects from each input type.
捕捉場景(地球儀、房屋、球體、雕像)上,方法展現了比 FWP++ 更精確的幾何恢復,尤其在間接光存在的區域,如牆角與蠟燭底部。然而,FWP++ 在捕捉資料上展現出略微更佳的視角合成——基於物理的方法可能對系統校準與模型不匹配更為敏感。該方法進一步實現了時間解析視角合成與重新打光,這是此前從未在捕捉的多視角時間解析量測中展示過的。系統還展示了無需光達監督的時間解析成像——模型可使用連續波飛行時間量測甚至強度影像進行訓練,從每種輸入類型中恢復直接與間接光傳輸效應。
段落功能 真實世界驗證——以捕捉資料結果佐證方法的實用性,同時坦承限制。
邏輯角色 此段平衡了優勢與限制的呈現:幾何重建優勢明確,但視角合成略遜。重新打光與無光達監督的額外能力展示了系統的廣泛潛力。
論證技巧 / 潛在漏洞 坦承 FWP++ 在視角合成上略勝一籌是學術誠信的展現,但將原因歸於「校準敏感度」可能過於樂觀——這也可能反映物理模型本身的限制。無光達監督的展示(從 CW-ToF 或強度影像恢復時間解析資訊)是令人印象深刻的額外貢獻,大幅擴展了方法的適用範圍。

6. Discussion — 討論

The method relies on a more constrained physical model than other approaches, including FWP++. Some captured data performance degradation compared to baselines is observed, where model mismatch is a potential issue. This might be mitigated through improved physical setup calibration. Additionally, the method requires more than one day of optimization on a single GPU due to time-consuming physical light transport simulation, I/O penalties from loading large time-resolved measurement vectors, and GPU memory bandwidth requirements. Addressing this might involve using neural representations predicting time-resolved signals at single time instants rather than complete vectors, or using faster neural representations like 3D Gaussian Ray Tracing or EVER.
本方法依賴比其他方法(包括 FWP++)更受約束的物理模型在某些捕捉資料上觀察到相較基線的效能下降,模型不匹配是潛在原因。這可能透過改善物理設置校準來緩解。此外,方法在單一 GPU 上需要超過一天的最佳化時間,原因包括耗時的物理光傳輸模擬、載入大型時間解析量測向量的輸入/輸出代價,以及 GPU 記憶體頻寬需求。解決此問題可能涉及使用預測單一時間瞬間(而非完整向量)的神經表示,或使用如三維高斯射線追蹤或 EVER 等更快的神經表示。
段落功能 自我批判——誠實列舉方法的主要限制與潛在解決方向。
邏輯角色 討論章節的限制分析為全文的主張劃定邊界:物理模型約束帶來精確性的同時也引入了敏感性,計算成本是實用化的主要障礙。
論證技巧 / 潛在漏洞 坦承限制是強論文的標誌。但「超過一天的最佳化」在實際應用中可能是重大障礙。提及 3D Gaussian Ray Tracing 與 EVER 作為未來方向,展示了對領域最新進展的掌握,也為後續研究指明了路線。
Although non-line-of-sight imaging is not tackled, the framework could principally extend to this application in unconstrained conditions, like non-line-of-sight imaging with non-planar relay surfaces. Due to widespread lidar technology usage, the work has potential impact in autonomous navigation or remote sensing — especially in scenarios with strong indirect lighting effects. The physically-based decomposition of direct and indirect light transport opens avenues for improved depth estimation in challenging multi-bounce environments, where conventional lidar processing pipelines fail due to indirect light contamination.
雖然本文未處理非視線成像,但此框架原則上可擴展至無約束條件下的此類應用,例如使用非平面中繼面的非視線成像。由於光達技術的廣泛使用,本研究在自動導航或遙測領域具有潛在影響——特別是在存在強烈間接光效應的場景中。直接與間接光傳輸的基於物理分解,為在具有挑戰性的多次反射環境中改善深度估計開闢了途徑,因為傳統光達處理管線在間接光汙染下會失效
段落功能 展望未來——描述方法的潛在擴展方向與實際應用影響。
邏輯角色 結論段呼應緒論的動機:從光達在自駕與遙測的應用出發,最終回到這些應用場景中的具體改進。形成完整的論證閉環。
論證技巧 / 潛在漏洞 將 NLOS 成像列為未來方向既是誠實的限制聲明,也是擴展研究空間的策略。自駕場景中的間接光汙染問題確實存在,但從實驗室規模的物件場景到自駕的大規模戶外場景,其間的技術鴻溝(計算成本、感測器差異、動態場景)未被充分討論。

論證結構總覽

問題
傳統光達忽略間接光
喪失豐富場景資訊
論點
時間解析輻射快取
實現基於物理的逆渲染
證據
模擬與真實場景驗證
幾何 MAE 降至 8.45 度
反駁
物理模型約束帶來
校準敏感性與計算成本
結論
首個傳播光逆渲染系統
開拓時間解析成像新方向

作者核心主張(一句話)

透過將時間解析輻射快取與基於物理的渲染模型結合,首次從多視角傳播光影片中實現神經逆渲染,恢復場景幾何、材質與外觀,並支援新視角合成與重新打光。

論證最強處

基線失敗模式的深入分析:不僅展示數值優勢(法向量 MAE 8.45 度 vs. 22.80/28.00 度),更具體解釋 T-NeRF 產生浮動偽影、FWP++ 產生鏡像副本的物理原因,直接證明了基於物理建模的必要性。同時,無光達監督的時間解析成像展示,大幅擴展了方法的適用範圍。

論證最弱處

真實場景的視角合成退化:在捕捉資料上,較不受約束的 FWP++ 在視角合成指標上略勝一籌,暴露了物理模型在面對實際系統校準誤差時的脆弱性。此外,超過一天的 GPU 最佳化時間嚴重限制了方法的實用性,從實驗室場景到自駕等大規模應用的可擴展性尚待驗證。

Thesis 核心論點
Concept 關鍵概念
Evidence 實證證據
Rebuttal 讓步反駁
Method 方法論