經典到前沿 — Annotated & Bilingual
收錄電腦視覺領域的奠基經典與頂會(CVPR、ICCV、ECCV)的代表性論文, 涵蓋影像分類、物件偵測、語義分割、3D 視覺、生成模型、多模態學習等核心主題, 每篇皆附中英雙語對照與多維度深度分析解讀。
在深入 CVPR / ICCV / ECCV 前沿研究之前,建議先了解這些奠基之作
CVPR / ICCV 共通的核心研究方向 · 點擊關鍵詞篩選相關論文
Conference on Computer Vision and Pattern Recognition · 2013-2025
12 篇代表性論文 · 投稿 13,008 / 收錄 2,878 / 接收率 22.1%
前饋式神經網路從一張到數百張視角直接估測所有關鍵 3D 場景屬性,在多項 3D 任務達到最先進水準。
閱讀批注首個基於物理的神經逆渲染系統,從傳播光的多視角影片中恢復場景幾何、材質與光源屬性。
閱讀批注從隨手拍攝的動態場景單目影片中實現精準、快速且穩健的相機追蹤與深度估測。
閱讀批注以條件擴散 Transformer 預測未來視覺觀測的導航世界模型,可在陌生環境中規劃導航軌跡。
閱讀批注完全開源的視覺語言模型家族,72B 版本超越多個閉源模型,不依賴專有資料從零建構。
閱讀批注以 Student-t 分布取代高斯分布,結合正負密度潑灑與挖取,以更少元件達到更高品質 3D 渲染。
閱讀批注利用擴散時間步學習離散遞迴視覺標記,統一框架中同時達到多模態理解與生成最先進水準。
閱讀批注 即時 SLAM以 MASt3R 兩視角 3D 重建先驗為基礎的即時單目稠密 SLAM 系統,15 FPS 產生全域一致位姿與幾何。
閱讀批注 統一多模態將視覺編碼解耦為獨立路徑,在統一自迴歸 Transformer 中同時實現多模態理解與生成。
閱讀批注 3D 生成統一結構化 3D 潛在表示可解碼為輻射場、高斯與網格等多種格式,20 億參數模型大幅超越現有方法。
閱讀批注 影片深度估測從影像到影片擴散模型訓練,實現開放世界影片的時序一致長深度序列生成,單次可達 110 幀。
閱讀批注 統一影像生成極簡架構(VAE + Transformer)的統一影像生成模型,支援任意交錯文字與影像輸入,無需額外插件。
閱讀批注12 篇代表性論文 · 投稿 11,532 / 收錄 2,719 / 接收率 23.6%
從單張靜態影像建模自然振盪動態,以傅立葉域擴散先驗產生逼真的影像動畫與互動式模擬。
閱讀批注建立 RichHF-18K 資料集提供區域級熱力圖與文字錯位標注,以細粒度人類回饋改善影像生成品質。
閱讀批注引入 3D 平滑濾波與 2D Mip 濾波消除 3D Gaussian Splatting 的混疊偽影,實現跨尺度一致渲染。
閱讀批注以 TreeOfLife-10M(1040 萬影像、45 萬分類群)訓練 CLIP 模型,在生物分類上超越通用 CLIP 達 17%。
閱讀批注前饋式模型從僅兩張輸入影像預測 3D 高斯潑灑,實現即時可泛化的 3D 重建。
閱讀批注 深度估計以 6200 萬影像訓練的單目深度估計基礎模型,達到前所未有的零樣本穩健性與泛化能力。
閱讀批注 開放詞彙偵測以 RepVL-PAN 融合視覺與語言特徵,將即時 YOLO 偵測擴展至開放詞彙場景。
閱讀批注 多模態基礎模型統一提示式視覺基礎模型,以 FLD-5B 資料集預訓練,單一架構處理偵測、分割、描述與定位。
閱讀批注 視覺語言模型將視覺基礎模型擴展至 60 億參數(InternViT-6B),以漸進式 LLM 對齊在 32 項基準達到最佳。
閱讀批注 動態 3D 渲染將 3D 高斯潑灑擴展至 4D,以神經體素編碼實現動態場景即時渲染(RTX 3090 達 82 FPS)。
閱讀批注 高效分割以 SAMI 遮罩影像預訓練重建 SAM 編碼器特徵,大幅縮小模型規模同時維持分割品質。
閱讀批注以隨機幾何理論建模不透明固體的體積表示,證明指數型體積光傳輸的成立條件。
閱讀批注12 篇代表性論文 · 投稿 9,155 / 收錄 2,359 / 接收率 25.8%
以程式碼生成方式組合視覺模組,無需訓練即可完成複雜視覺推理任務,開創模組化視覺推理新範式。
閱讀批注首個將全棧駕駛任務(感知、預測、規劃)統一於單一網路的端到端自動駕駛框架 UniAD。
閱讀批注從單目影片合成動態場景的新視角,結合運動感知的體積影像渲染,處理複雜的場景運動。
閱讀批注提出基於最大團的穩健 3D 點雲配準方法,在 3DMatch 與 KITTI 基準上達到最先進精度與效率。
閱讀批注僅需少量主題影像即可微調擴散模型,生成該主題在不同場景中的新影像,實現個人化影像生成。
閱讀批注 視覺基礎模型以可變形摺積 DCNv3 為核心運算子,建構十億參數級視覺基礎模型,在 16 個基準上達到最佳。
閱讀批注 多模態學習學習跨六種模態(影像、文字、音訊、深度、紅外、IMU)的聯合嵌入空間,僅需影像配對資料。
閱讀批注 自監督學習以遮罩影像-文字對齊特徵重建為預訓練任務,高效擴展 ViT 至十億參數,刷新多項下游任務紀錄。
閱讀批注 開放詞彙分割結合預訓練的文字-影像擴散模型與判別式模型,實現開放詞彙全景分割。
閱讀批注 GAN / 影像生成首次將 GAN 成功擴展用於文字到影像合成,推理速度比擴散模型快數個量級,支援即時影像編輯。
閱讀批注 偵測與分割在 DINO 偵測器上擴展遮罩預測分支,以統一架構在偵測、實例分割與全景分割上同時達到最佳。
閱讀批注 3D 生成透過鏈式法則將 2D 擴散模型的分數函數反向傳播穿過可微分渲染器,實現從預訓練 2D 模型生成 3D 內容。
閱讀批注12 篇代表性論文 · 投稿 8,161 / 收錄 2,067 / 接收率 25.3%
提出學習策略選擇起始問題-解對,透過數值延拓避免計算大量假解,在 RANSAC 框架下以平均 70 微秒即時求解困難最小問題。
閱讀批注利用滾動快門與全域快門雙相機系統,以僅 130Hz 的感測器同時感測多個場景源的高速振動,頻率可達 63kHz。
閱讀批注提出機率式 PnP 層用於通用端到端姿態估計,在 SE(3) 流形上輸出姿態分佈,達到 LineMOD 與 nuScenes 領先成績。
閱讀批注以反射輻射參數化取代 NeRF 原有的視角依賴表示,結合整合方向編碼,大幅改善光澤表面的渲染品質。
閱讀批注 自監督學習以非對稱編碼器-解碼器架構隨機遮罩 75% 影像區塊並重建,將 ViT-Huge 在 ImageNet-1K 上推至 87.8% 準確率。
閱讀批注 擴散模型在預訓練自編碼器的潛在空間執行擴散,搭配交叉注意力實現文本條件化生成,為 Stable Diffusion 的技術基礎。
閱讀批注 網路架構從 ResNet 逐步現代化至 Transformer 風格設計,產出純摺積網路 ConvNeXt,在分類、偵測與分割均超越 Swin Transformer。
閱讀批注 Vision Transformer提出殘差後正規化、餘弦注意力與對數間距位置偏差三項技術,成功將 Swin Transformer 擴展至 30 億參數。
閱讀批注 統一分割提出遮罩注意力機制,單一架構統一處理全景、實例與語意分割,三項基準均達當時最佳。
閱讀批注 物體偵測揭示 DETR 收斂慢源於二分圖匹配不穩定性,提出查詢去噪訓練策略,通用性強可插入任何 DETR 類方法。
閱讀批注 影像修復提出高效能 Transformer 模型處理大尺寸影像,在去雨、去模糊、去雜訊等多項影像修復任務達到最佳成績。
閱讀批注 3D 重建結合神經 3D 點雲與體積渲染,透過預訓練深度網路直接初始化神經點雲,訓練速度提升 30 倍並超越 NeRF 品質。
閱讀批注12 篇代表性論文 · 投稿 7,093 / 收錄 1,660 / 接收率 23.7%
結合 GAN 與神經輻射場,以組合式場景表徵實現對物體形狀、外觀、姿態與相機視角的解糾纏控制。
閱讀批注 自監督學習證明簡單的孿生網路無需負樣本、大批次或動量編碼器即可學習有意義的視覺表徵。
閱讀批注 新視角合成將 NeRF 擴展至非受控環境,處理光照變化與瞬態遮蔽物,從網路照片集重建 3D 場景。
閱讀批注 網路架構以結構重參數化技術解耦訓練與推論架構,推論時僅需 3x3 摺積與 ReLU 即達 80%+ ImageNet 精度。
閱讀批注 語義分割以純 Transformer 編碼器將語義分割重塑為序列到序列預測任務,在 ADE20K 上達到 50.28% mIoU。
閱讀批注 動態場景將神經輻射場擴展至動態場景,以時間條件變形網路將觀測空間點映射至正準空間。
閱讀批注 影像摳圖以兩階段架構實現 4K@30fps 的即時背景摳圖,僅需額外一張背景影像即可精確分離前景。
閱讀批注 影片實例分割首個端到端 Transformer 影片實例分割框架,同時處理分割與追蹤,達到 VIS 模型最高速度。
閱讀批注 場景流以剛體運動嵌入表徵像素的軟性分組,迭代更新逐像素 SE3 運動場,實現精確的 3D 場景流估計。
閱讀批注 Vision Transformer以漸進式 Token 聚合模組建模局部結構,使 ViT 無需大規模預訓練即可從零訓練達到 81.5% ImageNet 精度。
閱讀批注 物件偵測首個針對 Transformer 偵測器的無監督預訓練方法,以隨機查詢補丁偵測為前置任務加速收斂。
閱讀批注 人體深度估計從社群媒體舞蹈影片中以自監督方式學習穿著衣物人體的高保真深度,捕捉衣物皺褶等細緻幾何。
閱讀批注12 篇代表性論文 · 投稿 6,656 / 收錄 1,467 / 接收率 22.0%
以機率對稱性為先驗,從無標注單視角影像中學習可變形 3D 物體的深度、反照率與視角分解。
閱讀批注借鑑二元空間分割的古典技術,以神經網路直接生成緊湊且保證水密的多邊形網格。
閱讀批注 自監督學習以動量更新的動態字典實現大規模對比學習,在多項下游任務中縮小無監督與監督式學習的差距。
閱讀批注 物件偵測提出 BiFPN 與複合縮放策略,以數倍更少的參數與計算量達到最先進的偵測精度。
閱讀批注 影像分割將影像分割視為渲染問題,在自適應選取的邊界點上進行精細預測,產生更清晰的物件邊界。
閱讀批注 3D 攝影從單張 RGB-D 影像生成具視差效果的 3D 照片,以情境感知修復模型填補遮蔽區域。
閱讀批注 人體姿態估計以高解析度特徵金字塔實現尺度感知的由下而上多人姿態估計,顯著改善中小型人物的偵測。
閱讀批注 3D 人體重建以多層級像素對齊隱式函數解決解析度與語境的取捨,從單張影像重建高解析度 3D 人體。
閱讀批注 度量學習以圓形決策邊界統一配對相似度最佳化,在人臉辨識、行人重識別與細粒度檢索上達到最先進效能。
閱讀批注 影片辨識從微型 2D 模型出發,沿多軸漸進擴展,以數倍更少的計算量達到最先進的影片辨識效能。
閱讀批注 人體動態捕捉以弱監督多視角訊號訓練,實現從單目影片進行密集人體動態捕捉,無需 3D 標注資料。
閱讀批注 生成模型首個可媲美並超越純生成器架構的自編碼器,在 1024x1024 人臉生成與真實影像操控上達到 StyleGAN 水準。
閱讀批注12 篇代表性論文 · 投稿 5,160 / 收錄 1,294 / 接收率 25.2%
提出費馬路徑理論,解決非視線(NLOS)場景下的形狀重建問題,為隱藏物體的感知開創了全新的數學框架。
閱讀批注 人臉辨識提出加性角度邊距損失函數,透過在超球面上的角度空間施加清晰的幾何約束,大幅提升人臉辨識效能。
閱讀批注 GAN/影像生成以風格遷移為靈感重新設計生成器架構,實現對生成影像各層級屬性的精細控制,樹立高品質影像合成新標竿。
閱讀批注 語義影像合成提出空間自適應正規化技術(SPADE),以語義標籤圖驅動高品質影像生成,保留空間語義資訊的完整性。
閱讀批注 3D 形狀表示利用深度學習習得連續的有符號距離函數(SDF),以隱式表示法建模複雜 3D 形狀,實現高效形狀補全與生成。
閱讀批注 3D 物件偵測直接從原始點雲生成 3D 候選框並進行精煉偵測,無需投影至 2D 視圖,於自駕場景中達到領先精度。
閱讀批注 物件追蹤/分割將視覺物件追蹤與半監督影片物件分割統一在孿生網路框架中,同時輸出邊界框與像素級遮罩。
閱讀批注 神經架構搜尋首次將神經架構搜尋(NAS)拓展至語義分割的網路層級結構設計,自動發現最優的多尺度特徵融合路徑。
閱讀批注 物件偵測從樣本、特徵與目標三個層面系統性地解決物件偵測中的不平衡問題,以簡潔的方法帶來顯著的效能提升。
閱讀批注 影像分類系統性整理影像分類訓練中常被忽略的技巧(學習率策略、資料增強等),驗證其對模型精度的累積效果。
閱讀批注 物件偵測提出廣義交集比(GIoU)作為邊界框迴歸的損失函數,解決傳統 IoU 在不重疊情況下梯度為零的根本缺陷。
閱讀批注 3D 人臉重建結合 GAN 與 3D 可形變模型,從單張照片重建高保真度的 3D 人臉,在紋理細節與幾何精度上超越傳統方法。
閱讀批注12 篇代表性論文 · 投稿 3,303 / 收錄 979 / 接收率 29.6%
建立 26 項視覺任務之間的遷移關係計算圖譜,揭示任務間結構化相依性,為遷移學習選擇提供系統化依據。
閱讀批注統一追蹤人臉、雙手與全身的 3D 可變形模型,以 Frank 模型實現完整人體動態的同步捕捉。
閱讀批注 影片理解提出非區域運算模組捕捉長距離時空依賴關係,可即插即用嵌入任何深度網路,顯著提升影片分類準確率。
閱讀批注 網路架構以通道注意力機制動態重校準特徵響應,以極小的額外參數代價獲得顯著效能提升,贏得 ImageNet 2017 冠軍。
閱讀批注 GAN以單一生成器實現多領域影像轉換,無需為每對領域訓練獨立模型,大幅提升多屬性臉部編輯效率。
閱讀批注 高效架構提出反轉殘差與線性瓶頸結構,在行動裝置上以極低計算量實現高效能影像分類與物件偵測。
閱讀批注 影像合成以多尺度生成器與判別器架構搭配特徵匹配損失,從語義標籤圖合成高達 2048x1024 解析度的逼真影像。
閱讀批注 姿態估計建立從 RGB 影像到人體表面 UV 座標的密集對應關係,以 DensePose-COCO 資料集推動密集人體姿態估計研究。
閱讀批注 GAN以漸進式成長策略從低解析度開始逐步增加層數,穩定訓練過程並首次生成 1024x1024 的高品質人臉影像。
閱讀批注 影片理解系統性比較 2D、3D 與分解式時空摺積架構,證明 R(2+1)D 分解可同時提升精度與訓練效率。
閱讀批注以深度學習端到端求解圖匹配問題,將組合最佳化嵌入神經網路訓練迴圈,在視覺對應任務上大幅超越傳統方法。
閱讀批注在稀疏高維格點上以雙邊摺積層處理點雲,支援 2D-3D 聯合推理,在語義分割任務上達到領先成績。
閱讀批注12 篇代表性論文 · 投稿 2,620 / 收錄 783 / 接收率 29.9%
以密集連接讓每一層接收所有前層的特徵圖,實現最大化特徵重用與梯度流通,以更少參數達到更高準確率。
閱讀批注以對抗訓練精煉合成影像使其逼近真實影像分布,在保留標注資訊的同時提升模擬資料的真實感。
閱讀批注 3D 點雲首個直接在無序點集上操作的深度學習架構,以對稱函數與空間變換網路實現點雲分類與語義分割。
閱讀批注 物件偵測以自上而下的特徵金字塔與橫向連接融合多尺度語義,成為後續幾乎所有偵測器的標準特徵提取架構。
閱讀批注 GAN以條件式 GAN 建立通用的影像到影像轉換框架,從邊緣圖生成照片、語義標籤到街景等多種任務共用單一架構。
閱讀批注 姿態估計以部位親和場編碼肢體關聯性,實現即時的由下而上多人姿態估計,成為人體姿態估計領域的標誌性工作。
閱讀批注 語義分割以金字塔池化模組聚合多尺度全域情境資訊,在 ADE20K、Cityscapes 等場景解析基準上達到當時最佳成績。
閱讀批注 網路架構以分組摺積引入基數維度,在不增加計算複雜度的前提下提升模型容量,為 ResNet 系列的重要演進。
閱讀批注 超解析度首次將 GAN 應用於超解析度任務,以感知損失與對抗損失生成照片級真實感的 4 倍放大影像。
閱讀批注 物件偵測以可學習偏移量讓摺積核自適應變形以匹配物體形狀,大幅增強模型對幾何變換的建模能力。
閱讀批注以 RNN 自動回歸預測多邊形頂點序列進行物件輪廓標注,將分割標注時間減少至人工的數分之一。
閱讀批注利用電網中的電壓波動作為感測訊號進行計算成像,開創從基礎設施數據推斷視覺場景資訊的新範式。
閱讀批注12 篇代表性論文 · 投稿 2,145 / 收錄 643 / 接收率 29.9%
將時空圖結構轉化為 RNN 混合體,以語義圖中的節點與邊映射至獨立 RNN 單元,實現結構化時序預測。
閱讀批注提出次標籤精度的凸鬆弛方法求解非凸能量最小化,在光流與深度估計等連續值問題上達到更精確的解。
閱讀批注 網路架構系統性提出摺積分解、輔助分類器與標籤平滑等設計原則,將 Inception 網路在 ImageNet 上推至 21.2% top-1 錯誤率。
閱讀批注 可解釋性以全域平均池化層的類別權重產生類別啟動熱力圖,揭示 CNN 在分類決策中關注的影像區域。
閱讀批注 影像修復以編碼器-解碼器架構搭配對抗損失學習影像修復,同時作為自監督特徵學習的有效前置任務。
閱讀批注 3D 偵測在 3D 體素空間中以深度網路直接進行 3D 物件偵測,以多尺度 3D RPN 處理室內場景的遮蔽物體。
閱讀批注 VQA以多層堆疊注意力機制逐步聚焦與問題相關的影像區域,在視覺問答基準上達到顯著效能提升。
閱讀批注 動作辨識建立包含 56,880 個樣本的大規模 RGB+D 動作辨識資料集,成為骨架動作辨識領域最廣泛使用的基準。
閱讀批注 物件偵測以線上困難範例挖掘策略自動選取高損失的訓練樣本,無需手動調整正負樣本比例即可提升偵測效能。
閱讀批注 影片理解以多階段 CNN 架構在未裁剪影片中進行時序動作定位,結合提案生成與分類實現端到端動作偵測。
閱讀批注 3D 對應以 3D 引導的循環一致性約束學習密集影像對應關係,在無需逐點標注的情況下建立跨視角幾何對應。
閱讀批注 3D 理解從單張影像推斷 3D 物體骨架表示,結合分析合成式訓練策略,以少量 3D 標注實現 3D 幾何推理。
閱讀批注12 篇代表性論文 · 投稿 2,123 / 收錄 602 / 接收率 28.4%
首個即時重建非剛體動態場景的系統,以變形場融合深度幀序列,從消費級深度相機捕捉任意變形物體。
閱讀批注將分類網路轉化為全摺積架構實現端到端像素級預測,建立現代語義分割方法的基礎範式。
閱讀批注 網路架構以 Inception 模組在多個尺度上平行提取特徵,在 ImageNet 2014 中以 22 層深度贏得冠軍。
閱讀批注 人臉辨識以三元組損失直接學習歐氏空間中的人臉嵌入向量,在 LFW 上達到 99.63% 準確率,成為人臉辨識經典方法。
閱讀批注 影像描述以 CNN 編碼器搭配 LSTM 解碼器生成自然語言影像描述,開創編碼器-解碼器框架在影像描述的應用。
閱讀批注 影片理解結合 CNN 視覺特徵與 LSTM 時序建模,統一框架處理動作辨識、影像描述與影片描述等多項視覺任務。
閱讀批注 分割將 CNN 各層特徵垂直堆疊為超柱向量,為每個像素提供多尺度語義描述,提升定位與精細分割效能。
閱讀批注 3D 形狀以 3D 摺積深度信念網路學習體素化 3D 形狀表示,建立 ModelNet 資料集成為 3D 形狀分類標準基準。
閱讀批注從單張影像重建特定類別物體的完整 3D 模型,以類別級形狀先驗克服單視角幾何歧義。
閱讀批注以機率程式語言建模場景感知,結合生成模型與貝氏推論實現對場景組成的結構化理解與推理。
閱讀批注 物件偵測證明經典可變形部件模型等價於特定的 CNN 架構,以統一觀點橋接傳統手工特徵與深度學習偵測方法。
閱讀批注 動作辨識以層次式 RNN 將骨架關節按身體部位分組建模,逐層聚合局部到全域的動作時序特徵。
閱讀批注12 篇代表性論文 · 投稿 1,807 / 收錄 540 / 接收率 29.9%
以選擇性搜尋提取候選區域再用 CNN 分類,在 PASCAL VOC 上將 mAP 提升逾 30%,開啟深度學習物件偵測時代。
閱讀批注 人臉辨識以深度神經網路搭配 3D 人臉對齊,在 LFW 基準上達到 97.35% 準確率,首次逼近人類水準的人臉驗證效能。
閱讀批注證明在未知 BRDF 條件下,相機運動可揭示場景形狀,從陰影變化中恢復物體三維幾何。
閱讀批注 遷移學習系統性研究 CNN 中間層特徵的遷移能力,證明預訓練的中階表徵可有效轉移至多種視覺辨識任務。
閱讀批注 分割以多尺度組合分組策略生成高品質物件提案,在 PASCAL VOC 上以更少提案數達到更高的物件覆蓋率。
閱讀批注以修剪策略獲得一般圖模型 MAP 推論的部分最優解,為大規模離散最佳化問題提供理論保證的加速方法。
閱讀批注利用結構光傳輸分析同時恢復場景的 3D 形狀與間接外觀(如次表面散射),超越傳統結構光方法的限制。
閱讀批注 人臉辨識以多重深度網路提取互補的人臉特徵表示,在 LFW 上達到 97.45% 準確率,驗證深度學習在人臉辨識的潛力。
閱讀批注 框架以模組化設計與高效能 GPU 實作打造的深度學習框架,成為早期電腦視覺研究最廣泛使用的工具之一。
閱讀批注 動作辨識將骨架序列建模為李群上的曲線,以微分幾何方法提取旋轉不變特徵,為骨架動作辨識引入嚴謹的數學框架。
閱讀批注 3D 重建以級聯雜湊策略大幅加速大規模影像匹配,為 3D 重建管線中的特徵匹配瓶頸提供高效解決方案。
閱讀批注 多目標追蹤將多目標追蹤轉化為約束序列標籤問題,以全域最佳化求解軌跡關聯,在 MOT 基準上達到領先效能。
閱讀批注12 篇代表性論文 · 投稿 1,816 / 收錄 472 / 接收率 26.0%
在單一機器上以分層式分類器實現十萬類物件的快速偵測,突破大規模物件辨識的計算瓶頸。
閱讀批注以判別式學習方法取代傳統去摺積的生成式框架,直接從模糊影像回歸清晰結果,速度與品質均優於傳統方法。
閱讀批注利用群眾外包的影像資料建立機率式視覺自定位系統,從大規模非結構化照片集中估計相機位置。
閱讀批注 目標追蹤建立包含 51 個序列的目標追蹤基準資料集 OTB,以系統化評測框架促進追蹤演算法的公平比較與進步。
閱讀批注 SLAM將 SLAM 提升至物件層級,以已知物件模型作為地標,同時估計相機位姿與物件 6DoF 姿態。
閱讀批注 行人偵測以非監督式多階段特徵學習取代手工特徵,驗證從無標注資料學習到的特徵在行人偵測上的有效性。
閱讀批注 RGB-D 場景結合 RGB 與深度資訊進行室內場景的感知組織與辨識,以結構化預測理解房間佈局與物件配置。
閱讀批注 動作辨識以 4D 時空法向量直方圖描述深度影片中的動態模式,為基於深度的動作辨識提供有效的手工特徵描述子。
閱讀批注 3D 重建同時進行 3D 場景重建與類別語義分割,以聯合推論讓幾何重建與語義理解相互增強。
閱讀批注 顯著性以層次式方法結合多尺度顯著性線索,從細粒度到粗粒度逐層融合產生精確的顯著性偵測圖。
閱讀批注 人臉偵測以影像檢索方式進行人臉偵測與對齊,從大規模人臉資料庫中匹配相似姿態以估計人臉特徵點位置。
閱讀批注 多目標追蹤以拉格朗日鬆弛法將多目標追蹤轉化為最小費用網路流問題,在保證近似最優的同時高效求解。
閱讀批注International Conference on Computer Vision · 2013-2025
12 篇代表性論文 · 投稿 11,239 / 收錄 2,698 / 接收率 24.0%
以生成模型引導逐塊 LEGO 組裝,將 3D 結構生成轉化為序列預測問題,實現自動化積木建造。
閱讀批注學習在視覺場景中對任意指定點進行自動對焦,以神經網路模擬真實光學系統的聚焦行為。
閱讀批注以分散式光線追蹤實現組合式神經渲染,支援複雜場景中的反射、折射與全域光照效果。
閱讀批注 影像編輯無需反轉即可利用預訓練流模型進行文字引導的影像編輯,以流場操控實現精確的語義修改。
閱讀批注 多模態推理讓視覺語言模型以思維鏈方式逐步推理,系統性地分解視覺問題以提升複雜推理準確度。
閱讀批注 分割與理解結合 SAM2 分割能力與 LLaVA 語言理解,實現影像與影片的密集定位語義理解。
閱讀批注 視覺基礎模型以端到端動態少樣本學習架構結合視覺基礎模型,在極少標註下快速適應新類別辨識。
閱讀批注 可控生成以表達性遮罩條件進行區域級影像生成控制,支援精細的空間佈局與屬性指定。
閱讀批注 3D 場景理解以層次化實體表示進行 3D 場景理解,從物件到房間建立多層次語義結構。
閱讀批注 3D 高斯潑灑將 3D 高斯潑灑擴展至大規模場景,以長距離建模實現遠景與近景的一致高品質渲染。
閱讀批注 場景重建從稀疏視角以高斯潑灑為基礎進行場景理解,同時完成幾何重建與語義分割。
閱讀批注 表示學習將擴散模型作為視覺表示學習器,從去噪過程中提取豐富的視覺特徵用於下游任務。
閱讀批注12 篇代表性論文 · 投稿 8,068 / 收錄 2,160 / 接收率 26.8%
以超寬頻雷達成像技術實現密集場景重建,突破傳統光學感測器在惡劣環境下的限制。
閱讀批注ControlNet 為預訓練擴散模型加入條件控制,以邊緣圖、姿態圖等空間條件精確引導影像生成。
閱讀批注SAM 以 10 億個遮罩的 SA-1B 資料集訓練,建立通用分割基礎模型,支援點、框、文字等多種提示。
閱讀批注以準 3D 標準空間表示追蹤影片中每個像素的完整運動軌跡,實現密集且長程的全域運動估計。
閱讀批注 3D 高斯潑灑以 3D 高斯基元取代神經隱式表示,實現即時高品質新視角合成,開創 3D 高斯潑灑技術。
閱讀批注 自監督學習無需標註即可學習穩健的視覺特徵,以自蒸餾方法大規模預訓練產生通用視覺表示。
閱讀批注 影像編輯零樣本物件級影像客製化,將任意參考物件自然地傳送到目標場景的指定位置。
閱讀批注 影片生成以級聯潛在擴散模型生成高品質影片,從文字描述產生時序連貫且視覺精細的影片內容。
閱讀批注 神經輻射場模組化的神經輻射場框架,整合多項 NeRF 改進技術為統一流程,降低實驗門檻。
閱讀批注 語言嵌入輻射場將語言嵌入注入 NeRF 中,實現以自然語言查詢 3D 場景中的物件與區域。
閱讀批注 影像提示適配以解耦交叉注意力機制為文字到影像擴散模型加入影像提示能力,實現風格與內容遷移。
閱讀批注 影片追蹤高品質萬物追蹤框架,結合視覺基礎模型實現精確的半自動影片物件追蹤與分割。
閱讀批注12 篇代表性論文 · 投稿 6,152 / 收錄 1,617 / 接收率 25.9%
以移位視窗機制建立層次化 Vision Transformer,在分類、偵測、分割等多項任務達到最先進水準。
閱讀批注以特徵度量精煉實現像素級精確的 SfM,將深度學習特徵融入傳統多視角幾何流程。
閱讀批注以錐形追蹤取代射線追蹤消除 NeRF 的混疊偽影,以整合式位置編碼實現多尺度抗鋸齒渲染。
閱讀批注以 GAN 生成開放集資料訓練開放集辨識器,有效區分已知類別與未知類別的樣本。
閱讀批注大規模真實物件 3D 重建資料集與評估基準,涵蓋 50 類超過 18,000 段影片。
閱讀批注 深度估計DPT 將 Vision Transformer 應用於密集預測任務,以全域感受野實現高品質單目深度估計與語義分割。
閱讀批注 Vision Transformer金字塔 Vision Transformer 以漸進式縮小的空間解析度建立多尺度特徵,無需摺積即可作為密集預測骨幹。
閱讀批注 Vision Transformer以焦點自注意力機制在細粒度局部與粗粒度全域之間建立高效互動,平衡計算效率與表達能力。
閱讀批注 神經輻射場從含噪的原始影像進行高動態範圍新視角合成,將 NeRF 擴展至低光與高對比場景。
閱讀批注 統一分割MaskFormer 以遮罩分類取代逐像素分類,統一語義、實例與全景分割為單一框架。
閱讀批注透過循環一致性分析視角圖的可解性,為多視角幾何重建提供理論保證。
閱讀批注 影片理解MViT 以多尺度特徵層次建立影片 Vision Transformer,在動作辨識等影片理解任務達到最先進水準。
閱讀批注12 篇代表性論文 · 投稿 4,303 / 收錄 1,075 / 接收率 25.0%
僅從單張自然影像學習生成模型,以多尺度 GAN 架構捕捉影像的內部補丁分布實現多樣化生成。
閱讀批注在完整多視角可見性下研究點線最小問題,為多視角幾何提供新的最小求解器。
閱讀批注 資料增強以剪切混合策略將一張影像的區域貼到另一張上並混合標籤,訓練出更強且具定位能力的分類器。
閱讀批注 物件偵測全摺積單階段物件偵測器,以逐像素預測取代錨框機制,簡化偵測流程並達到競爭力表現。
閱讀批注 3D 物件偵測以深度霍夫投票在點雲中進行 3D 物件偵測,將經典投票機制與深度學習結合實現端到端訓練。
閱讀批注 影片理解以慢速與快速雙路徑分別捕捉空間語義與時間動態,在影片辨識任務達到最先進水準。
閱讀批注 3D 重建從單張影像同時偵測物件並重建其 3D 網格,以端到端架構結合 2D 偵測與 3D 形狀推理。
閱讀批注 領域適應以可遷移正規化改善深度神經網路的遷移能力,透過自適應特徵正規化縮小領域差異。
閱讀批注 神經架構搜尋探索隨機連線的神經網路架構用於影像辨識,以圖生成演算法取代手工設計的網路拓撲。
閱讀批注 物件偵測以級聯多階段架構逐步提升 IoU 閾值進行物件偵測,在高品質偵測上顯著超越單階段方法。
閱讀批注以深度感測器融合實現單光子 3D 成像,在極低光條件下重建高品質 3D 場景。
閱讀批注學習 3D 室內環境的功能可供性,理解人與場景的互動關係以合理地在場景中放置人體。
閱讀批注12 篇代表性論文 · 投稿 2,143 / 收錄 621 / 接收率 28.9%
在 Faster R-CNN 基礎上加入遮罩分支,以簡潔優雅的架構同時實現物件偵測與實例分割。
閱讀批注RetinaNet 提出焦點損失解決類別不平衡問題,讓單階段偵測器首次超越雙階段方法。
閱讀批注以線上逆強化學習預測第一人稱視角的未來活動,從自我中心影片中推理行為意圖。
閱讀批注 影像轉譯CycleGAN 以循環一致性損失實現不配對影像轉譯,無需成對訓練資料即可在不同領域間轉換風格。
閱讀批注 可解釋性以梯度加權類別啟動映射產生視覺解釋,揭示深度網路在分類決策時關注的影像區域。
閱讀批注 模型壓縮以通道剪枝加速極深神經網路,在最小精度損失下大幅減少計算量與模型大小。
閱讀批注 領域適應開放集領域適應,在目標領域包含未知類別的情境下進行知識遷移,同時辨識已知與拒絕未知。
閱讀批注 幾何視覺以全域最優化同時求解相機姿態與特徵對應的內點集最大化問題,提升多視角幾何的穩健性。
閱讀批注 VQA以結構化注意力機制進行視覺問答,建模影像區域間的結構關係以更好地理解問題語義。
閱讀批注 影像修復以上下文注意力機制進行生成式影像修復,從遠處區域借用特徵填補缺失內容。
閱讀批注 3D 形狀補全以 3D 編碼器-預測器摺積網路進行形狀補全,從部分觀測重建完整的 3D 形狀。
閱讀批注 語義分割邁向類別無關的語義分割,學習分割所有物件而非僅限於預定義類別。
閱讀批注12 篇代表性論文 · 投稿 1,698 / 收錄 525 / 接收率 30.9%
將深度神經網路與決策森林結合,以端到端可微分架構同時學習表示與分類器。
閱讀批注HED 以多尺度巢狀架構同時學習不同層級的邊緣特徵,實現端到端的整體性邊緣偵測。
閱讀批注 物件偵測以 RoI 池化層統一特徵提取與分類訓練,大幅加速 R-CNN 系列的訓練與推論速度。
閱讀批注 網路架構深入研究整流器並提出 PReLU 與 Kaiming 初始化,首次在 ImageNet 分類上超越人類水準。
閱讀批注 光流估計首個以摺積神經網路端到端學習光流的方法,開創了深度學習在光流估計領域的先河。
閱讀批注 影片理解C3D 以 3D 摺積學習時空特徵,為影片理解提供通用且高效的特徵表示。
閱讀批注 語義分割將條件隨機場建模為遞迴神經網路層,實現端到端可微分的語義分割精煉。
閱讀批注 語義分割以反摺積網路學習從粗到細的語義分割,透過反池化與反摺積逐步恢復空間解析度。
閱讀批注 自監督學習以預測影像區塊間的空間位置關係作為前置任務,學習無監督的視覺表示。
閱讀批注 可解釋性透過反轉深度影像表示來理解神經網路學到的特徵,可視化各層的資訊編碼內容。
閱讀批注 影片理解以軌跡池化深度摺積描述子進行動作辨識,結合手工軌跡特徵與深度學習表示。
閱讀批注 光流預測以保邊插值從稀疏對應估計密集光流,利用邊緣資訊引導插值保持物件邊界清晰。
閱讀批注12 篇代表性論文 · 投稿 1,629 / 收錄 454 / 接收率 27.9%
從大規模影像分類探索入門級類別概念,研究人類認知中最自然的物件命名層級。
閱讀批注針對平均精度的高效最佳化方法,以資料下降法加速 SVM 在多標籤與多類別場景的訓練。
閱讀批注針對自動駕駛場景的物件場景流估計,聯合推理 3D 運動與場景結構。
閱讀批注 動作辨識以改進的密集軌跡特徵進行動作辨識,透過相機運動補償提升軌跡品質與辨識準確度。
閱讀批注 邊緣偵測以結構化隨機森林進行快速邊緣偵測,將結構化輸出預測應用於高效的輪廓偵測。
閱讀批注 物件偵測以摺積網路整合辨識、定位與偵測,展示多尺度滑動視窗方法在多任務上的有效性。
閱讀批注 顯著性以布林圖為基礎的顯著性偵測方法,透過二值化注意力圖的統計分析產生顯著性預測。
閱讀批注 RGB-D 理解結合 RGB 與深度資訊進行室內場景的感知組織與辨識,以結構化預測理解房間佈局。
閱讀批注 影像分割以吸收馬可夫鏈模型進行影像分割,利用隨機遊走的吸收機率自然地分離前景與背景。
閱讀批注 語義分割以費雪向量進行語義分割,將局部特徵的分布統計編碼為高維描述子用於像素級分類。
閱讀批注 文字偵測在非受控環境中的照片文字辨識,以多階段流程處理自然場景中的文字偵測與辨識。
閱讀批注 多目標追蹤以連續能量最小化進行多目標追蹤,將離散的資料關聯問題轉化為連續最佳化問題。
閱讀批注European Conference on Computer Vision · 2014-2024
12 篇代表性論文 · 投稿 8,585 / 收錄 2,395 / 接收率 27.9%
以自由形式像素實現極簡視覺,突破傳統矩形像素網格限制,用最少資訊量捕捉場景關鍵視覺特徵。
閱讀批注提出可微分的光柵化邊緣梯度方法,優雅處理渲染過程中的不連續性問題。
閱讀批注透過概念算術運算繞過擴散模型中的概念抑制機制,揭示安全機制的弱點。
閱讀批注 擴散模型以對抗式訓練蒸餾擴散模型,實現少步驟高品質影像生成。
閱讀批注 擴散模型以 LoRA 適配器實現擴散模型中概念的精準滑桿式控制。
閱讀批注 物件偵測結合 DINO 與定位預訓練實現開放集物件偵測。
閱讀批注 3D 生成以大規模多視角高斯模型實現高解析度 3D 內容創作。
閱讀批注 基礎模型建立人體視覺基礎模型,統一處理姿態、深度、分割等人體相關任務。
閱讀批注 光流估測改進 RAFT 光流估測架構,在簡潔性、效率和準確度間取得平衡。
閱讀批注 擴散模型以可擴展內插 Transformer 探索流與擴散生成模型。
閱讀批注 影片理解以狀態空間模型實現高效影片理解,以線性複雜度處理長序列。
閱讀批注 3D 重建將幾何 3D 視覺簡化為端到端學習問題,無需相機參數即可重建 3D 場景。
閱讀批注12 篇代表性論文 · 投稿 5,167 / 收錄 1,645 / 接收率 31.8%
探索偏距離相關性在深度學習中的多元應用,提供新的正則化與分析工具。
閱讀批注以水平集理論驅動神經隱式表面在顯式流場下的演化。
閱讀批注以神經距離場建模人體姿態流形,實現連續姿態空間的高效表示。
閱讀批注 自動駕駛以時空 Transformer 從多相機影像學習鳥瞰圖表示。
閱讀批注 神經輻射場以張量分解表示輻射場,大幅加速 NeRF 訓練與渲染。
閱讀批注 網路架構多軸視覺 Transformer,結合區域與全域注意力機制。
閱讀批注 網路架構雙注意力視覺 Transformer,融合空間與通道注意力。
閱讀批注 場景理解全景場景圖生成,建立像素級場景關係圖。
閱讀批注 3D 物件偵測以位置嵌入變換實現多視角 3D 物件偵測。
閱讀批注 點雲分割以 2D 先驗資訊輔助光達點雲語義分割。
閱讀批注 影像編輯零樣本物件級影像客製化,將任意物件無縫植入目標場景。
閱讀批注 影像生成以遮罩生成 Transformer 實現高效影像生成。
閱讀批注12 篇代表性論文 · 投稿 5,025 / 收錄 1,361 / 接收率 27.1%
以遞迴全配對場變換革新光流估測,成為後續光流方法的基準架構。
閱讀批注以神經輻射場表示場景,實現照片級真實感的新視角合成。
閱讀批注邁向串流感知,重新定義自動駕駛中即時感知的評估標準。
閱讀批注 物件偵測以 Transformer 實現端到端物件偵測,消除非最大值抑制等手工後處理。
閱讀批注 實例分割以位置為基礎的實例分割,簡化分割管線。
閱讀批注 語義分割以物件上下文表示提升語義分割精度。
閱讀批注 GAN直接改寫深度生成模型的內部規則,實現精確的語義編輯。
閱讀批注 3D 點雲以對比學習進行 3D 點雲的無監督預訓練。
閱讀批注 網路架構重新思考瓶頸結構以設計高效行動網路。
閱讀批注 影片理解以自適應幀解析度實現高效動作辨識。
閱讀批注 自監督學習知識蒸餾結合自監督學習,提升模型壓縮效果。
閱讀批注 影像修復以非配對學習方式訓練深度影像去噪模型。
閱讀批注12 篇代表性論文 · 投稿 2,439 / 收錄 776 / 接收率 31.8%
以隱式 3D 方向學習實現 6D 物件偵測,突破傳統離散姿態分類限制。
閱讀批注群組正規化打破批次正規化對批次大小的依賴,在小批次場景表現穩健。
閱讀批注以解剖學感知的 GAN 從單張影像生成臉部動畫。
閱讀批注 注意力機制摺積區塊注意力模組,結合通道與空間注意力機制。
閱讀批注 物件偵測以成對角點偵測物件,開創無錨框偵測方法。
閱讀批注 語義分割DeepLabv3+ 以空洞可分離摺積的編碼器-解碼器架構實現語義分割。
閱讀批注 姿態估計以簡潔基線方法實現人體姿態估測與追蹤,證明簡單架構的有效性。
閱讀批注 高效架構提出高效 CNN 架構設計的實用準則,以直接速度指標取代 FLOPs。
閱讀批注 實例分割以由下而上的部件式幾何嵌入實現人體姿態估測與實例分割。
閱讀批注 自監督學習探索弱監督預訓練的極限,以大規模雜訊標籤資料提升視覺表示。
閱讀批注 語義分割以高效空間金字塔擴張摺積實現即時語義分割。
閱讀批注 基礎模型重新思考 ImageNet 預訓練的必要性,證明從頭訓練亦可達到相近效果。
閱讀批注12 篇代表性論文 · 投稿 1,561 / 收錄 415 / 接收率 26.6%
以事件相機實現即時 3D 重建與六自由度追蹤。
閱讀批注快速雙邊求解器,高效解決大規模最佳化問題。
閱讀批注 物件偵測單次多框偵測器,在速度與精度間取得平衡的即時物件偵測方法。
閱讀批注 網路架構深度殘差網路中的恆等映射,改進殘差學習的梯度流動。
閱讀批注 風格轉換以感知損失實現即時風格轉換與超解析度。
閱讀批注 影像生成自動影像上色,以深度學習為灰階影像賦予鮮豔色彩。
閱讀批注 物件追蹤全摺積孿生網路實現即時物件追蹤。
閱讀批注 姿態估計堆疊沙漏網路實現多尺度人體姿態估測。
閱讀批注 物件追蹤以深度迴歸網路實現每秒 100 幀的高速追蹤。
閱讀批注 網路架構寬殘差網路,證明增加網路寬度比深度更有效率。
閱讀批注 語義分割為即時語義分割設計的高效深度神經網路架構。
閱讀批注 影片理解時序片段網路,以稀疏取樣策略實現高效影片動作辨識。
閱讀批注12 篇代表性論文 · 投稿 1,555 / 收錄 363 / 接收率 23.3%
以標籤關係圖進行大規模物件分類,利用語義層次結構提升分類準確度。
閱讀批注場景年代學,從歷史照片推斷建築與場景的時間演變。
閱讀批注 物件偵測COCO 資料集:情境中的常見物件,成為物件偵測與分割的標準評測基準。
閱讀批注 網路架構空間金字塔池化使 CNN 接受任意大小輸入,加速物件偵測。
閱讀批注 網路架構視覺化與理解摺積網路,以反摺積技術揭示 CNN 學到的特徵。
閱讀批注 影像修復以深度摺積網路實現影像超解析度,開創深度學習超解析方法。
閱讀批注 3D 重建大規模直接單目 SLAM,不依賴特徵點的即時 3D 建圖與定位。
閱讀批注 基礎模型預訓練 CNN 特徵的強大遷移性,作為各類辨識任務的驚人基線。
閱讀批注 物件偵測以邊緣資訊快速生成物件候選框。
閱讀批注 語義分割同時偵測與分割,統一物件偵測與語義分割任務。
閱讀批注 物件偵測證明可形變部件模型等價於摺積神經網路。
閱讀批注 動作辨識以堆疊 Fisher 向量進行動作辨識。
閱讀批注