Abstract — 摘要
"Humans describe the physical world using natural language to refer to specific 3D locations based on a vast range of properties: visual appearance, semantics, abstract associations, or actionable affordances." In this work the authors propose Language Embedded Radiance Fields (LERF), a method for grounding language embeddings from off-the-shelf models like CLIP into NeRF, which enable open-ended language queries in 3D. LERF learns a dense, multi-scale language field by volume rendering CLIP embeddings along training rays with multi-view consistency. After optimization, LERF generates 3D relevancy maps for language prompts in real-time without requiring region proposals or masks.
人類使用自然語言描述物理世界,根據廣泛的屬性(視覺外觀、語義、抽象關聯或可操作性)指涉特定的三維位置。本研究提出語言嵌入輻射場(LERF),一種將 CLIP 等現成模型的語言嵌入植入 NeRF 的方法,使得在三維空間中進行開放式語言查詢成為可能。LERF 透過沿訓練射線對 CLIP 嵌入進行體積渲染並施加多視角一致性約束,學習密集的多尺度語言場。最佳化後,LERF 能即時生成語言提示的三維相關性圖,無需區域提案或遮罩。
段落功能
全文總覽——從人類認知的角度引出「以語言查詢三維場景」的研究目標。
邏輯角色
摘要以「人類如何描述世界」作為哲學性開場,將技術問題(CLIP + NeRF 融合)提升為認知科學層面的探索,擴大了論文的影響力範圍。
論證技巧 / 潛在漏洞
「開放式語言查詢」的範圍極廣,但實際受限於 CLIP 的能力——CLIP 本身對空間關係、組合概念的理解有限。「無需區域提案」是相對於 2D 方法的優勢,但在 3D 中的精度需實驗驗證。
1. Introduction — 緒論
"Neural Radiance Fields (NeRFs) have emerged as a powerful technique for capturing photorealistic digital representations of intricate real-world 3D scenes." However, "the immediate output of NeRFs is nothing but a colorful density field, devoid of meaning or context." The authors propose enabling natural language interaction with 3D scenes by grounding CLIP embeddings within NeRF structures. LERF supports diverse query types — from visual properties to abstract concepts — without fine-tuning CLIP or relying on region proposals. This bridges the gap between photorealistic 3D reconstruction and semantic scene understanding.
神經輻射場(NeRF)已成為捕捉精密真實世界三維場景的逼真數位表示的強大技術。然而,NeRF 的直接輸出不過是一個彩色密度場,缺乏意義與脈絡。作者提議透過將 CLIP 嵌入植入 NeRF 結構,實現與三維場景的自然語言互動。LERF 支援從視覺屬性到抽象概念的多樣查詢類型,無需微調 CLIP 或依賴區域提案。這橋接了逼真三維重建與語義場景理解之間的鴻溝。
段落功能
建立研究場域——指出 NeRF 缺乏語義理解的根本限制。
邏輯角色
「彩色密度場,缺乏意義」的批評精準描繪了原始 NeRF 的本質限制,為語言嵌入的融入提供了強有力的動機。
論證技巧 / 潛在漏洞
「缺乏意義」的措辭有效但也稍嫌激進——語義 NeRF(如 Semantic NeRF)已透過分割標籤引入了部分語義。LERF 的差異化在於開放詞彙而非封閉標籤集。
2. Related Work — 相關工作
Prior work covers open-vocabulary detection in 2D, 2D feature distillation into NeRF, and 3D language grounding approaches. Methods like Distilled Feature Fields (DFF) distill features from 2D vision models into NeRF but operate at a single scale, missing the multi-scale nature of language concepts. 3D-SLR and similar approaches use region proposals or pre-extracted bounding boxes, creating a bottleneck. LERF is positioned as offering a "dense, volumetric interface for 3D text queries" distinct from prior sparse or single-scale methods, without requiring any pre-segmentation or region proposal stages.
先前工作涵蓋二維開放詞彙偵測、二維特徵蒸餾至 NeRF,以及三維語言定位方法。如蒸餾特徵場(DFF)等方法將二維視覺模型的特徵蒸餾至 NeRF,但僅在單一尺度運作,忽略了語言概念的多尺度本質。3D-SLR 等方法使用區域提案或預提取的邊界框,形成瓶頸。LERF 被定位為提供密集的體積式三維文字查詢介面,有別於先前的稀疏或單尺度方法,且不需要任何預分割或區域提案階段。
段落功能
文獻定位——區分 LERF 與既有 2D/3D 語義方法的關鍵差異。
邏輯角色
以「單尺度」和「區域提案依賴」兩個維度批評先前工作,為 LERF 的「密集、多尺度、無提案」三重優勢鋪路。
論證技巧 / 潛在漏洞
將 DFF 歸類為「單尺度」是精準的技術區分。但 LERF 的「密集」特性也意味著更高的記憶體與計算需求,此取捨未在此段討論。
3. Method — 方法
3.1 Volumetric Rendering of Language — 語言的體積渲染
"To render language embeddings into an image, we adopt a similar technique as prior work to render language embeddings along a ray." Since LERF is a field over volumes, not points, the method must also define a scale parameter. The scale is defined proportionally: s(t) = s_img * f_xy / t, representing a frustum along each ray where s_img is the physical scale in image space and f_xy is the focal length. This enables multi-scale language supervision — the same 3D point can hold different language meanings at different scales, mirroring how humans describe objects at varying levels of granularity.
為了將語言嵌入渲染為影像,本方法採用與先前工作類似的技術,沿射線渲染語言嵌入。由於 LERF 是一個體積場而非點場,方法還需定義一個尺度參數。尺度按比例定義:s(t) = s_img * f_xy / t,表示沿每條射線的錐體,其中 s_img 是影像空間的物理尺度,f_xy 是焦距。這實現了多尺度語言監督——同一個三維點在不同尺度下可以持有不同的語言意義,模擬人類在不同粒度層級描述物件的方式。
段落功能
核心方法——定義如何將語言嵌入從二維監督融入三維體積場。
邏輯角色
尺度參數的引入是 LERF 區別於 DFF 的關鍵創新——它將「多尺度」的概念從影像空間映射到三維空間。
論證技巧 / 潛在漏洞
錐體幾何模型優雅地連結了影像尺度與三維深度。但假設 CLIP 嵌入在不同裁切尺度下保持語義一致性——實際上 CLIP 對裁切方式較為敏感,可能在極端尺度下失效。
3.2 Multi-Scale Supervision — 多尺度監督
LERF supervises the language field using image pyramids at multiple scales. For each training ray, CLIP embeddings are computed from image crops at three scales centered on the pixel corresponding to that ray. The rendered language embedding is trained to match all three simultaneously. Additionally, DINO features are used as a regularizer to enforce spatial smoothness in the language field. The DINO regularization helps because DINO features capture local visual similarity that CLIP's global pooling may miss, providing complementary geometric grounding for the language embeddings.
LERF 使用多尺度影像金字塔監督語言場。對於每條訓練射線,在以該射線對應像素為中心的三個尺度影像裁切上計算 CLIP 嵌入。渲染的語言嵌入被訓練為同時匹配三者。此外,使用 DINO 特徵作為正則化器,強制語言場的空間平滑性。DINO 正則化之所以有效,是因為 DINO 特徵捕捉了 CLIP 全域池化可能遺漏的局部視覺相似性,為語言嵌入提供互補的幾何定位。
段落功能
訓練策略——描述多尺度 CLIP 監督與 DINO 正則化的具體實施。
邏輯角色
CLIP(語義廣度)+ DINO(空間精度)的互補組合直接回應了單一模型不足的問題,形成了方法的雙支柱。
論證技巧 / 潛在漏洞
三尺度監督加 DINO 正則化使每條射線的計算量顯著增加(3 次 CLIP 推論 + 1 次 DINO 推論),訓練效率可能成為瓶頸。此外,三個尺度的選擇(而非連續尺度)引入了離散化近似。
3.3 Querying Mechanism — 查詢機制
At inference time, LERF generates 3D relevancy maps for arbitrary text queries. The query process uses cosine similarity between the rendered CLIP embedding and the text query embedding. To normalize relevancy scores, the method employs canonical phrase comparisons — computing similarity against a set of generic text prompts (e.g., "object," "things," "texture") and normalizing the target query's score relative to these baselines. This produces a per-point relevancy score that can be volume-rendered into 2D relevancy maps or queried directly in 3D, enabling applications in robotics, scene interaction, and spatial reasoning.
在推論時,LERF 為任意文字查詢生成三維相關性圖。查詢過程使用渲染的 CLIP 嵌入與文字查詢嵌入之間的餘弦相似度。為正規化相關性分數,方法採用典範短語比較——計算與一組通用文字提示(如「物件」、「東西」、「紋理」)的相似度,並將目標查詢的分數相對於這些基線進行正規化。這產生了逐點的相關性分數,可透過體積渲染為二維相關性圖或直接在三維中查詢,適用於機器人學、場景互動與空間推理等應用。
段落功能
推論階段——描述如何從訓練好的語言場中提取資訊。
邏輯角色
典範短語正規化是實用性的關鍵——原始餘弦相似度的絕對值缺乏語義,相對比較才具有可解釋性。
論證技巧 / 潛在漏洞
典範短語的選擇(「object」、「things」等)可能對查詢結果有顯著影響,但作者未詳細分析此敏感度。此外,體積渲染相關性圖時的遮擋處理需要注意——被遮擋的物件可能無法被查詢到。
4. Experiments — 實驗
LERF is evaluated on 13 real-world scenes spanning indoor and outdoor environments. For localization tasks, LERF demonstrates superior performance over LSeg (3D) and competitive results against OWL-ViT, a 2D open-vocabulary detector. Ablation studies confirm the importance of both DINO regularization and multi-scale training — removing either component degrades localization accuracy significantly. The method handles diverse query types including object names ("mug"), visual attributes ("shiny"), abstract concepts ("something to write with"), and even text recognition ("SUNKIST"), demonstrating the breadth of open-vocabulary 3D querying.
LERF 在 13 個涵蓋室內外環境的真實世界場景上進行評估。在定位任務上,LERF 展現了優於 LSeg(3D)的表現,且與二維開放詞彙偵測器 OWL-ViT 競爭力相當。消融研究確認了 DINO 正則化與多尺度訓練的重要性——移除任一組件都會顯著降低定位準確度。該方法處理多樣的查詢類型,包括物件名稱(「馬克杯」)、視覺屬性(「閃亮的」)、抽象概念(「可以用來寫字的東西」),甚至文字辨識(「SUNKIST」),展示了開放詞彙三維查詢的廣度。
段落功能
實證支撐——以多元查詢類型展示方法的泛化能力。
邏輯角色
「可以用來寫字的東西」這類抽象查詢的成功是最具說服力的證據——它超越了物件辨識,達到了功能性理解的層次。
論證技巧 / 潛在漏洞
13 個場景的評估規模適中但不算大。與 OWL-ViT「競爭力相當」而非「超越」值得注意——OWL-ViT 是 2D 方法,LERF 作為 3D 方法理應在空間推理上有優勢。消融研究的完整性為方法設計提供了堅實的支撐。
5. Conclusion — 結論
"We present LERF, a novel method of fusing raw CLIP embeddings into a NeRF in a dense, multi-scale fashion without requiring region proposals or fine-tuning." The method demonstrates that language understanding can be seamlessly integrated into 3D scene representations, enabling real-time open-ended queries. Acknowledged limitations include CLIP's bag-of-words behavior (difficulty with compositional queries like "the red cup to the left of the book"), spatial reasoning difficulties, and dependency on NeRF reconstruction quality — poorly reconstructed regions yield unreliable language embeddings.
本文提出 LERF,一種以密集、多尺度方式將原始 CLIP 嵌入融入 NeRF 的新方法,無需區域提案或微調。該方法證明了語言理解可以無縫整合至三維場景表示中,實現即時的開放式查詢。已知限制包括 CLIP 的詞袋行為(難以處理如「書旁邊的紅色杯子」等組合式查詢)、空間推理困難,以及對 NeRF 重建品質的依賴——重建不佳的區域會產生不可靠的語言嵌入。
段落功能
總結全文——重申創新點並坦承三項具體限制。
邏輯角色
三項限制的自我批評展現了學術誠實:CLIP 的語言理解瓶頸、空間推理不足、重建品質依賴,各自指向不同的未來研究方向。
論證技巧 / 潛在漏洞
將限制歸因於 CLIP 而非 LERF 本身是巧妙的論證——暗示 LERF 的框架是正確的,只要基礎模型改進(如 SigLIP),結果即可提升。但 NeRF 重建品質的依賴是更根本的架構限制。
論證結構總覽
問題
NeRF 僅產生密度場
缺乏語義理解
NeRF 僅產生密度場
缺乏語義理解
→
論點
多尺度 CLIP 嵌入
融入體積輻射場
多尺度 CLIP 嵌入
融入體積輻射場
→
證據
13 場景評估
抽象概念查詢成功
13 場景評估
抽象概念查詢成功
→
反駁
CLIP 詞袋限制
空間推理不足
CLIP 詞袋限制
空間推理不足
→
結論
語言理解可無縫
整合至 3D 表示
語言理解可無縫
整合至 3D 表示
作者核心主張(一句話)
透過以多尺度方式將 CLIP 語言嵌入融入 NeRF 的體積場並以 DINO 正則化,可在三維空間中實現密集、即時且開放詞彙的自然語言查詢。
論證最強處
多尺度語言場的設計理念:以錐體幾何模型將影像空間的裁切尺度映射至三維深度,使同一點能在不同粒度持有不同語義——這不僅是技術創新,更深刻反映了人類對世界的多層次語言描述。抽象概念查詢(如「可以用來寫字的東西」)的成功展示了超越物件辨識的功能性理解。
論證最弱處
對基礎模型的雙重依賴:LERF 同時依賴 NeRF 的重建品質與 CLIP 的語言理解能力,任一端的失敗都會傳播至最終結果。CLIP 的詞袋特性限制了組合式空間查詢(如「左邊的紅杯」),而 NeRF 重建失敗區域的語言嵌入也無法修復。雙重瓶頸使得系統的可靠性受限於最弱的環節。