CvHub -- 電腦視覺論文精選集

CVPR 論文精選

Conference on Computer Vision and Pattern Recognition · 2013-2025

收錄屆次

156

精選論文

10+

研究領域

歷年投稿與收錄篇數

歷年錄取率

12 篇代表性論文 · 投稿 13,008 / 收錄 2,878 / 接收率 22.1%

BEST PAPER

3D 多視角幾何

VGGT: Visual Geometry Grounded Transformer

前饋式神經網路從一張到數百張視角直接估測所有關鍵 3D 場景屬性，在多項 3D 任務達到最先進水準。

閱讀批注

BEST STUDENT PAPER

逆渲染

Neural Inverse Rendering from Propagating Light

首個基於物理的神經逆渲染系統，從傳播光的多視角影片中恢復場景幾何、材質與光源屬性。

閱讀批注

HONORABLE MENTION

結構與運動

MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos

從隨手拍攝的動態場景單目影片中實現精準、快速且穩健的相機追蹤與深度估測。

閱讀批注

HONORABLE MENTION

世界模型

Navigation World Models

以條件擴散 Transformer 預測未來視覺觀測的導航世界模型，可在陌生環境中規劃導航軌跡。

閱讀批注

HONORABLE MENTION

視覺語言模型

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

完全開源的視覺語言模型家族，72B 版本超越多個閉源模型，不依賴專有資料從零建構。

閱讀批注

HONORABLE MENTION

神經渲染

3D Student Splatting and Scooping

以 Student-t 分布取代高斯分布，結合正負密度潑灑與挖取，以更少元件達到更高品質 3D 渲染。

閱讀批注

STUDENT HONORABLE

多模態預訓練

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

利用擴散時間步學習離散遞迴視覺標記，統一框架中同時達到多模態理解與生成最先進水準。

閱讀批注即時 SLAM

MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors

以 MASt3R 兩視角 3D 重建先驗為基礎的即時單目稠密 SLAM 系統，15 FPS 產生全域一致位姿與幾何。

閱讀批注統一多模態

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

將視覺編碼解耦為獨立路徑，在統一自迴歸 Transformer 中同時實現多模態理解與生成。

閱讀批注 3D 生成

TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation

統一結構化 3D 潛在表示可解碼為輻射場、高斯與網格等多種格式，20 億參數模型大幅超越現有方法。

閱讀批注影片深度估測

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

從影像到影片擴散模型訓練，實現開放世界影片的時序一致長深度序列生成，單次可達 110 幀。

閱讀批注統一影像生成

OmniGen: Unified Image Generation

極簡架構（VAE + Transformer）的統一影像生成模型，支援任意交錯文字與影像輸入，無需額外插件。

閱讀批注

12 篇代表性論文 · 投稿 11,532 / 收錄 2,719 / 接收率 23.6%

BEST PAPER

影像動態生成

Generative Image Dynamics

從單張靜態影像建模自然振盪動態，以傅立葉域擴散先驗產生逼真的影像動畫與互動式模擬。

閱讀批注

BEST PAPER

文字到影像

Rich Human Feedback for Text-to-Image Generation

建立 RichHF-18K 資料集提供區域級熱力圖與文字錯位標注，以細粒度人類回饋改善影像生成品質。

閱讀批注

BEST STUDENT PAPER

3D 高斯潑灑

Mip-Splatting: Alias-free 3D Gaussian Splatting

引入 3D 平滑濾波與 2D Mip 濾波消除 3D Gaussian Splatting 的混疊偽影，實現跨尺度一致渲染。

閱讀批注

BEST STUDENT PAPER

生物視覺基礎模型

BioCLIP: A Vision Foundation Model for the Tree of Life

以 TreeOfLife-10M（1040 萬影像、45 萬分類群）訓練 CLIP 模型，在生物分類上超越通用 CLIP 達 17%。

閱讀批注

HONORABLE MENTION

3D 重建

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

前饋式模型從僅兩張輸入影像預測 3D 高斯潑灑，實現即時可泛化的 3D 重建。

閱讀批注深度估計

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

以 6200 萬影像訓練的單目深度估計基礎模型，達到前所未有的零樣本穩健性與泛化能力。

閱讀批注開放詞彙偵測

YOLO-World: Real-Time Open-Vocabulary Object Detection

以 RepVL-PAN 融合視覺與語言特徵，將即時 YOLO 偵測擴展至開放詞彙場景。

閱讀批注多模態基礎模型

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

統一提示式視覺基礎模型，以 FLD-5B 資料集預訓練，單一架構處理偵測、分割、描述與定位。

閱讀批注視覺語言模型

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

將視覺基礎模型擴展至 60 億參數（InternViT-6B），以漸進式 LLM 對齊在 32 項基準達到最佳。

閱讀批注動態 3D 渲染

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

將 3D 高斯潑灑擴展至 4D，以神經體素編碼實現動態場景即時渲染（RTX 3090 達 82 FPS）。

閱讀批注高效分割

EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

以 SAMI 遮罩影像預訓練重建 SAM 編碼器特徵，大幅縮小模型規模同時維持分割品質。

閱讀批注

HONORABLE MENTION

渲染理論

Objects as Volumes: A Stochastic Geometry View of Opaque Solids

以隨機幾何理論建模不透明固體的體積表示，證明指數型體積光傳輸的成立條件。

閱讀批注

12 篇代表性論文 · 投稿 9,155 / 收錄 2,359 / 接收率 25.8%

BEST PAPER

視覺推理

Visual Programming: Compositional Visual Reasoning Without Training

以程式碼生成方式組合視覺模組，無需訓練即可完成複雜視覺推理任務，開創模組化視覺推理新範式。

閱讀批注

BEST PAPER

自動駕駛

Planning-oriented Autonomous Driving

首個將全棧駕駛任務（感知、預測、規劃）統一於單一網路的端到端自動駕駛框架 UniAD。

閱讀批注

HONORABLE MENTION

新視角合成

DynIBaR: Neural Dynamic Image-Based Rendering

從單目影片合成動態場景的新視角，結合運動感知的體積影像渲染，處理複雜的場景運動。

閱讀批注

BEST STUDENT PAPER

點雲配準

3D Registration with Maximal Cliques

提出基於最大團的穩健 3D 點雲配準方法，在 3DMatch 與 KITTI 基準上達到最先進精度與效率。

閱讀批注

STUDENT HONORABLE

擴散模型

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

僅需少量主題影像即可微調擴散模型，生成該主題在不同場景中的新影像，實現個人化影像生成。

閱讀批注視覺基礎模型

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

以可變形摺積 DCNv3 為核心運算子，建構十億參數級視覺基礎模型，在 16 個基準上達到最佳。

閱讀批注多模態學習

ImageBind: One Embedding Space To Bind Them All

學習跨六種模態（影像、文字、音訊、深度、紅外、IMU）的聯合嵌入空間，僅需影像配對資料。

閱讀批注自監督學習

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

以遮罩影像-文字對齊特徵重建為預訓練任務，高效擴展 ViT 至十億參數，刷新多項下游任務紀錄。

閱讀批注開放詞彙分割

ODISE: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

結合預訓練的文字-影像擴散模型與判別式模型，實現開放詞彙全景分割。

閱讀批注 GAN / 影像生成

Scaling Up GANs for Text-to-Image Synthesis

首次將 GAN 成功擴展用於文字到影像合成，推理速度比擴散模型快數個量級，支援即時影像編輯。

閱讀批注偵測與分割

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

在 DINO 偵測器上擴展遮罩預測分支，以統一架構在偵測、實例分割與全景分割上同時達到最佳。

閱讀批注 3D 生成

Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation

透過鏈式法則將 2D 擴散模型的分數函數反向傳播穿過可微分渲染器，實現從預訓練 2D 模型生成 3D 內容。

閱讀批注

12 篇代表性論文 · 投稿 8,161 / 收錄 2,067 / 接收率 25.3%

BEST PAPER

幾何視覺

Learning to Solve Hard Minimal Problems

提出學習策略選擇起始問題-解對，透過數值延拓避免計算大量假解，在 RANSAC 框架下以平均 70 微秒即時求解困難最小問題。

閱讀批注

HONORABLE MENTION

計算攝影

Dual-Shutter Optical Vibration Sensing

利用滾動快門與全域快門雙相機系統，以僅 130Hz 的感測器同時感測多個場景源的高速振動，頻率可達 63kHz。

閱讀批注

BEST STUDENT PAPER

姿態估計

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

提出機率式 PnP 層用於通用端到端姿態估計，在 SE(3) 流形上輸出姿態分佈，達到 LineMOD 與 nuScenes 領先成績。

閱讀批注

STUDENT HONORABLE

神經輻射場

Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

以反射輻射參數化取代 NeRF 原有的視角依賴表示，結合整合方向編碼，大幅改善光澤表面的渲染品質。

閱讀批注自監督學習

Masked Autoencoders Are Scalable Vision Learners

以非對稱編碼器-解碼器架構隨機遮罩 75% 影像區塊並重建，將 ViT-Huge 在 ImageNet-1K 上推至 87.8% 準確率。

閱讀批注擴散模型

High-Resolution Image Synthesis with Latent Diffusion Models

在預訓練自編碼器的潛在空間執行擴散，搭配交叉注意力實現文本條件化生成，為 Stable Diffusion 的技術基礎。

閱讀批注網路架構

A ConvNet for the 2020s

從 ResNet 逐步現代化至 Transformer 風格設計，產出純摺積網路 ConvNeXt，在分類、偵測與分割均超越 Swin Transformer。

閱讀批注 Vision Transformer

Swin Transformer V2: Scaling Up Capacity and Resolution

提出殘差後正規化、餘弦注意力與對數間距位置偏差三項技術，成功將 Swin Transformer 擴展至 30 億參數。

閱讀批注統一分割

Masked-attention Mask Transformer for Universal Image Segmentation

提出遮罩注意力機制，單一架構統一處理全景、實例與語意分割，三項基準均達當時最佳。

閱讀批注物體偵測

DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

揭示 DETR 收斂慢源於二分圖匹配不穩定性，提出查詢去噪訓練策略，通用性強可插入任何 DETR 類方法。

閱讀批注影像修復

Restormer: Efficient Transformer for High-Resolution Image Restoration

提出高效能 Transformer 模型處理大尺寸影像，在去雨、去模糊、去雜訊等多項影像修復任務達到最佳成績。

閱讀批注 3D 重建

Point-NeRF: Point-based Neural Radiance Fields

結合神經 3D 點雲與體積渲染，透過預訓練深度網路直接初始化神經點雲，訓練速度提升 30 倍並超越 NeRF 品質。

閱讀批注

12 篇代表性論文 · 投稿 7,093 / 收錄 1,660 / 接收率 23.7%

BEST PAPER

場景生成

GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

結合 GAN 與神經輻射場，以組合式場景表徵實現對物體形狀、外觀、姿態與相機視角的解糾纏控制。

閱讀批注自監督學習

Exploring Simple Siamese Representation Learning

證明簡單的孿生網路無需負樣本、大批次或動量編碼器即可學習有意義的視覺表徵。

閱讀批注新視角合成

NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections

將 NeRF 擴展至非受控環境，處理光照變化與瞬態遮蔽物，從網路照片集重建 3D 場景。

閱讀批注網路架構

RepVGG: Making VGG-Style ConvNets Great Again

以結構重參數化技術解耦訓練與推論架構，推論時僅需 3x3 摺積與 ReLU 即達 80%+ ImageNet 精度。

閱讀批注語義分割

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

以純 Transformer 編碼器將語義分割重塑為序列到序列預測任務，在 ADE20K 上達到 50.28% mIoU。

閱讀批注動態場景

D-NeRF: Neural Radiance Fields for Dynamic Scenes

將神經輻射場擴展至動態場景，以時間條件變形網路將觀測空間點映射至正準空間。

閱讀批注影像摳圖

Real-Time High-Resolution Background Matting

以兩階段架構實現 4K@30fps 的即時背景摳圖，僅需額外一張背景影像即可精確分離前景。

閱讀批注影片實例分割

End-to-End Video Instance Segmentation with Transformers

首個端到端 Transformer 影片實例分割框架，同時處理分割與追蹤，達到 VIS 模型最高速度。

閱讀批注場景流

RAFT-3D: Scene Flow Using Rigid-Motion Embeddings

以剛體運動嵌入表徵像素的軟性分組，迭代更新逐像素 SE3 運動場，實現精確的 3D 場景流估計。

閱讀批注 Vision Transformer

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

以漸進式 Token 聚合模組建模局部結構，使 ViT 無需大規模預訓練即可從零訓練達到 81.5% ImageNet 精度。

閱讀批注物件偵測

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

首個針對 Transformer 偵測器的無監督預訓練方法，以隨機查詢補丁偵測為前置任務加速收斂。

閱讀批注人體深度估計

Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

從社群媒體舞蹈影片中以自監督方式學習穿著衣物人體的高保真深度，捕捉衣物皺褶等細緻幾何。

閱讀批注

12 篇代表性論文 · 投稿 6,656 / 收錄 1,467 / 接收率 22.0%

BEST PAPER

3D 重建

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

以機率對稱性為先驗，從無標注單視角影像中學習可變形 3D 物體的深度、反照率與視角分解。

閱讀批注

BEST STUDENT PAPER

3D 形狀生成

BSP-Net: Generating Compact Meshes via Binary Space Partitioning

借鑑二元空間分割的古典技術，以神經網路直接生成緊湊且保證水密的多邊形網格。

閱讀批注自監督學習

Momentum Contrast for Unsupervised Visual Representation Learning

以動量更新的動態字典實現大規模對比學習，在多項下游任務中縮小無監督與監督式學習的差距。

閱讀批注物件偵測

EfficientDet: Scalable and Efficient Object Detection

提出 BiFPN 與複合縮放策略，以數倍更少的參數與計算量達到最先進的偵測精度。

閱讀批注影像分割

PointRend: Image Segmentation as Rendering

將影像分割視為渲染問題，在自適應選取的邊界點上進行精細預測，產生更清晰的物件邊界。

閱讀批注 3D 攝影

3D Photography using Context-aware Layered Depth Inpainting

從單張 RGB-D 影像生成具視差效果的 3D 照片，以情境感知修復模型填補遮蔽區域。

閱讀批注人體姿態估計

HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

以高解析度特徵金字塔實現尺度感知的由下而上多人姿態估計，顯著改善中小型人物的偵測。

閱讀批注 3D 人體重建

PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

以多層級像素對齊隱式函數解決解析度與語境的取捨，從單張影像重建高解析度 3D 人體。

閱讀批注度量學習

Circle Loss: A Unified Perspective of Pair Similarity Optimization

以圓形決策邊界統一配對相似度最佳化，在人臉辨識、行人重識別與細粒度檢索上達到最先進效能。

閱讀批注影片辨識

X3D: Expanding Architectures for Efficient Video Recognition

從微型 2D 模型出發，沿多軸漸進擴展，以數倍更少的計算量達到最先進的影片辨識效能。

閱讀批注人體動態捕捉

DeepCap: Monocular Human Performance Capture Using Weak Supervision

以弱監督多視角訊號訓練，實現從單目影片進行密集人體動態捕捉，無需 3D 標注資料。

閱讀批注生成模型

Adversarial Latent Autoencoders

首個可媲美並超越純生成器架構的自編碼器，在 1024x1024 人臉生成與真實影像操控上達到 StyleGAN 水準。

閱讀批注

12 篇代表性論文 · 投稿 5,160 / 收錄 1,294 / 接收率 25.2%

BEST PAPER

非視線重建

A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

提出費馬路徑理論，解決非視線（NLOS）場景下的形狀重建問題，為隱藏物體的感知開創了全新的數學框架。

閱讀批注人臉辨識

ArcFace: Additive Angular Margin Loss for Deep Face Recognition

提出加性角度邊距損失函數，透過在超球面上的角度空間施加清晰的幾何約束，大幅提升人臉辨識效能。

閱讀批注 GAN／影像生成

A Style-Based Generator Architecture for Generative Adversarial Networks

以風格遷移為靈感重新設計生成器架構，實現對生成影像各層級屬性的精細控制，樹立高品質影像合成新標竿。

閱讀批注語義影像合成

Semantic Image Synthesis with Spatially-Adaptive Normalization

提出空間自適應正規化技術（SPADE），以語義標籤圖驅動高品質影像生成，保留空間語義資訊的完整性。

閱讀批注 3D 形狀表示

DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation

利用深度學習習得連續的有符號距離函數（SDF），以隱式表示法建模複雜 3D 形狀，實現高效形狀補全與生成。

閱讀批注 3D 物件偵測

PointRCNN: 3D Object Proposal Generation and Detection From Point Cloud

直接從原始點雲生成 3D 候選框並進行精煉偵測，無需投影至 2D 視圖，於自駕場景中達到領先精度。

閱讀批注物件追蹤／分割

Fast Online Object Tracking and Segmentation: A Unifying Approach

將視覺物件追蹤與半監督影片物件分割統一在孿生網路框架中，同時輸出邊界框與像素級遮罩。

閱讀批注神經架構搜尋

Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

首次將神經架構搜尋（NAS）拓展至語義分割的網路層級結構設計，自動發現最優的多尺度特徵融合路徑。

閱讀批注物件偵測

Libra R-CNN: Towards Balanced Learning for Object Detection

從樣本、特徵與目標三個層面系統性地解決物件偵測中的不平衡問題，以簡潔的方法帶來顯著的效能提升。

閱讀批注影像分類

Bag of Tricks for Image Classification with CNNs

系統性整理影像分類訓練中常被忽略的技巧（學習率策略、資料增強等），驗證其對模型精度的累積效果。

閱讀批注物件偵測

Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

提出廣義交集比（GIoU）作為邊界框迴歸的損失函數，解決傳統 IoU 在不重疊情況下梯度為零的根本缺陷。

閱讀批注 3D 人臉重建

GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction

結合 GAN 與 3D 可形變模型，從單張照片重建高保真度的 3D 人臉，在紋理細節與幾何精度上超越傳統方法。

閱讀批注

12 篇代表性論文 · 投稿 3,303 / 收錄 979 / 接收率 29.6%

BEST PAPER

遷移學習

Taskonomy: Disentangling Task Transfer Learning

建立 26 項視覺任務之間的遷移關係計算圖譜，揭示任務間結構化相依性，為遷移學習選擇提供系統化依據。

閱讀批注

BEST STUDENT PAPER

3D 人體

Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies

統一追蹤人臉、雙手與全身的 3D 可變形模型，以 Frank 模型實現完整人體動態的同步捕捉。

閱讀批注影片理解

Non-local Neural Networks

提出非區域運算模組捕捉長距離時空依賴關係，可即插即用嵌入任何深度網路，顯著提升影片分類準確率。

閱讀批注網路架構

Squeeze-and-Excitation Networks

以通道注意力機制動態重校準特徵響應，以極小的額外參數代價獲得顯著效能提升，贏得 ImageNet 2017 冠軍。

閱讀批注 GAN

StarGAN: Unified GANs for Multi-Domain Image-to-Image Translation

以單一生成器實現多領域影像轉換，無需為每對領域訓練獨立模型，大幅提升多屬性臉部編輯效率。

閱讀批注高效架構

MobileNetV2: Inverted Residuals and Linear Bottlenecks

提出反轉殘差與線性瓶頸結構，在行動裝置上以極低計算量實現高效能影像分類與物件偵測。

閱讀批注影像合成

High-Resolution Image Synthesis with Conditional GANs

以多尺度生成器與判別器架構搭配特徵匹配損失，從語義標籤圖合成高達 2048x1024 解析度的逼真影像。

閱讀批注姿態估計

DensePose: Dense Human Pose Estimation In The Wild

建立從 RGB 影像到人體表面 UV 座標的密集對應關係，以 DensePose-COCO 資料集推動密集人體姿態估計研究。

閱讀批注 GAN

Progressive Growing of GANs

以漸進式成長策略從低解析度開始逐步增加層數，穩定訓練過程並首次生成 1024x1024 的高品質人臉影像。

閱讀批注影片理解

A Closer Look at Spatiotemporal Convolutions for Action Recognition

系統性比較 2D、3D 與分解式時空摺積架構，證明 R(2+1)D 分解可同時提升精度與訓練效率。

閱讀批注

HONORABLE MENTION

圖匹配

Deep Learning of Graph Matching

以深度學習端到端求解圖匹配問題，將組合最佳化嵌入神經網路訓練迴圈，在視覺對應任務上大幅超越傳統方法。

閱讀批注

HONORABLE MENTION

點雲

SPLATNet: Sparse Lattice Networks for Point Cloud Processing

在稀疏高維格點上以雙邊摺積層處理點雲，支援 2D-3D 聯合推理，在語義分割任務上達到領先成績。

閱讀批注

12 篇代表性論文 · 投稿 2,620 / 收錄 783 / 接收率 29.9%

BEST PAPER

網路架構

Densely Connected Convolutional Networks

以密集連接讓每一層接收所有前層的特徵圖，實現最大化特徵重用與梯度流通，以更少參數達到更高準確率。

閱讀批注

BEST PAPER

GAN／領域適應

Learning from Simulated and Unsupervised Images through Adversarial Training

以對抗訓練精煉合成影像使其逼近真實影像分布，在保留標注資訊的同時提升模擬資料的真實感。

閱讀批注 3D 點雲

PointNet: Deep Learning on Point Sets

首個直接在無序點集上操作的深度學習架構，以對稱函數與空間變換網路實現點雲分類與語義分割。

閱讀批注物件偵測

Feature Pyramid Networks for Object Detection

以自上而下的特徵金字塔與橫向連接融合多尺度語義，成為後續幾乎所有偵測器的標準特徵提取架構。

閱讀批注 GAN

Image-to-Image Translation with Conditional Adversarial Networks

以條件式 GAN 建立通用的影像到影像轉換框架，從邊緣圖生成照片、語義標籤到街景等多種任務共用單一架構。

閱讀批注姿態估計

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

以部位親和場編碼肢體關聯性，實現即時的由下而上多人姿態估計，成為人體姿態估計領域的標誌性工作。

閱讀批注語義分割

Pyramid Scene Parsing Network

以金字塔池化模組聚合多尺度全域情境資訊，在 ADE20K、Cityscapes 等場景解析基準上達到當時最佳成績。

閱讀批注網路架構

Aggregated Residual Transformations (ResNeXt)

以分組摺積引入基數維度，在不增加計算複雜度的前提下提升模型容量，為 ResNet 系列的重要演進。

閱讀批注超解析度

Photo-Realistic Single Image Super-Resolution Using a GAN

首次將 GAN 應用於超解析度任務，以感知損失與對抗損失生成照片級真實感的 4 倍放大影像。

閱讀批注物件偵測

Deformable Convolutional Networks

以可學習偏移量讓摺積核自適應變形以匹配物體形狀，大幅增強模型對幾何變換的建模能力。

閱讀批注

HONORABLE MENTION

實例分割

Annotating Object Instances with a Polygon-RNN

以 RNN 自動回歸預測多邊形頂點序列進行物件輪廓標注，將分割標注時間減少至人工的數分之一。

閱讀批注

BEST STUDENT PAPER

計算攝影

Computational Imaging on the Electric Grid

利用電網中的電壓波動作為感測訊號進行計算成像，開創從基礎設施數據推斷視覺場景資訊的新範式。

閱讀批注

12 篇代表性論文 · 投稿 2,145 / 收錄 643 / 接收率 29.9%

BEST STUDENT PAPER

時空圖

Structural-RNN: Deep Learning on Spatio-Temporal Graphs

將時空圖結構轉化為 RNN 混合體，以語義圖中的節點與邊映射至獨立 RNN 單元，實現結構化時序預測。

閱讀批注

HONORABLE MENTION

最佳化

Sublabel-Accurate Relaxation of Nonconvex Energies

提出次標籤精度的凸鬆弛方法求解非凸能量最小化，在光流與深度估計等連續值問題上達到更精確的解。

閱讀批注網路架構

Rethinking the Inception Architecture

系統性提出摺積分解、輔助分類器與標籤平滑等設計原則，將 Inception 網路在 ImageNet 上推至 21.2% top-1 錯誤率。

閱讀批注可解釋性

Learning Deep Features for Discriminative Localization (CAM)

以全域平均池化層的類別權重產生類別啟動熱力圖，揭示 CNN 在分類決策中關注的影像區域。

閱讀批注影像修復

Context Encoders: Feature Learning by Inpainting

以編碼器-解碼器架構搭配對抗損失學習影像修復，同時作為自監督特徵學習的有效前置任務。

閱讀批注 3D 偵測

Deep Sliding Shapes for Amodal 3D Object Detection

在 3D 體素空間中以深度網路直接進行 3D 物件偵測，以多尺度 3D RPN 處理室內場景的遮蔽物體。

閱讀批注 VQA

Stacked Attention Networks for Image Question Answering

以多層堆疊注意力機制逐步聚焦與問題相關的影像區域，在視覺問答基準上達到顯著效能提升。

閱讀批注動作辨識

NTU RGB+D: A Large Scale Dataset for 3D Human Activity Analysis

建立包含 56,880 個樣本的大規模 RGB+D 動作辨識資料集，成為骨架動作辨識領域最廣泛使用的基準。

閱讀批注物件偵測

Training Region-based Object Detectors with Online Hard Example Mining

以線上困難範例挖掘策略自動選取高損失的訓練樣本，無需手動調整正負樣本比例即可提升偵測效能。

閱讀批注影片理解

Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs

以多階段 CNN 架構在未裁剪影片中進行時序動作定位，結合提案生成與分類實現端到端動作偵測。

閱讀批注 3D 對應

Learning Dense Correspondence via 3D-Guided Cycle Consistency

以 3D 引導的循環一致性約束學習密集影像對應關係，在無需逐點標注的情況下建立跨視角幾何對應。

閱讀批注 3D 理解

Single Image 3D Interpreter Network

從單張影像推斷 3D 物體骨架表示，結合分析合成式訓練策略，以少量 3D 標注實現 3D 幾何推理。

閱讀批注

12 篇代表性論文 · 投稿 2,123 / 收錄 602 / 接收率 28.4%

BEST PAPER

3D 重建

DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time

首個即時重建非剛體動態場景的系統，以變形場融合深度幀序列，從消費級深度相機捕捉任意變形物體。

閱讀批注

HONORABLE MENTION

語義分割

Fully Convolutional Networks for Semantic Segmentation

將分類網路轉化為全摺積架構實現端到端像素級預測，建立現代語義分割方法的基礎範式。

閱讀批注網路架構

Going Deeper with Convolutions (GoogLeNet / Inception)

以 Inception 模組在多個尺度上平行提取特徵，在 ImageNet 2014 中以 22 層深度贏得冠軍。

閱讀批注人臉辨識

FaceNet: A Unified Embedding for Face Recognition and Clustering

以三元組損失直接學習歐氏空間中的人臉嵌入向量，在 LFW 上達到 99.63% 準確率，成為人臉辨識經典方法。

閱讀批注影像描述

Show and Tell: A Neural Image Caption Generator

以 CNN 編碼器搭配 LSTM 解碼器生成自然語言影像描述，開創編碼器-解碼器框架在影像描述的應用。

閱讀批注影片理解

Long-Term Recurrent Convolutional Networks for Visual Recognition and Description

結合 CNN 視覺特徵與 LSTM 時序建模，統一框架處理動作辨識、影像描述與影片描述等多項視覺任務。

閱讀批注分割

Hypercolumns for Object Localization and Fine-grained Segmentation

將 CNN 各層特徵垂直堆疊為超柱向量，為每個像素提供多尺度語義描述，提升定位與精細分割效能。

閱讀批注 3D 形狀

3D ShapeNets: A Deep Representation for Volumetric Shapes

以 3D 摺積深度信念網路學習體素化 3D 形狀表示，建立 ModelNet 資料集成為 3D 形狀分類標準基準。

閱讀批注

BEST STUDENT PAPER

3D 重建

Category-Specific Object Reconstruction from a Single Image

從單張影像重建特定類別物體的完整 3D 模型，以類別級形狀先驗克服單視角幾何歧義。

閱讀批注

HONORABLE MENTION

場景理解

Picture: A Probabilistic Programming Language for Scene Perception

以機率程式語言建模場景感知，結合生成模型與貝氏推論實現對場景組成的結構化理解與推理。

閱讀批注物件偵測

Deformable Part Models are Convolutional Neural Networks

證明經典可變形部件模型等價於特定的 CNN 架構，以統一觀點橋接傳統手工特徵與深度學習偵測方法。

閱讀批注動作辨識

Hierarchical Recurrent Neural Network for Skeleton Based Action Recognition

以層次式 RNN 將骨架關節按身體部位分組建模，逐層聚合局部到全域的動作時序特徵。

閱讀批注

12 篇代表性論文 · 投稿 1,807 / 收錄 540 / 接收率 29.9%

物件偵測

Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation (R-CNN)

以選擇性搜尋提取候選區域再用 CNN 分類，在 PASCAL VOC 上將 mAP 提升逾 30%，開啟深度學習物件偵測時代。

閱讀批注人臉辨識

DeepFace: Closing the Gap to Human-Level Performance in Face Verification

以深度神經網路搭配 3D 人臉對齊，在 LFW 基準上達到 97.35% 準確率，首次逼近人類水準的人臉驗證效能。

閱讀批注

BEST PAPER

3D 形狀

What Camera Motion Reveals About Shape with Unknown BRDF

證明在未知 BRDF 條件下，相機運動可揭示場景形狀，從陰影變化中恢復物體三維幾何。

閱讀批注遷移學習

Learning and Transferring Mid-Level Image Representations using CNNs

系統性研究 CNN 中間層特徵的遷移能力，證明預訓練的中階表徵可有效轉移至多種視覺辨識任務。

閱讀批注分割

Multiscale Combinatorial Grouping for Image Segmentation and Object Proposal Generation

以多尺度組合分組策略生成高品質物件提案，在 PASCAL VOC 上以更少提案數達到更高的物件覆蓋率。

閱讀批注

BEST STUDENT PAPER

最佳化

Partial Optimality by Pruning for MAP-inference with General Graphical Models

以修剪策略獲得一般圖模型 MAP 推論的部分最優解，為大規模離散最佳化問題提供理論保證的加速方法。

閱讀批注

HONORABLE MENTION

3D 光傳輸

3D Shape and Indirect Appearance by Structured Light Transport

利用結構光傳輸分析同時恢復場景的 3D 形狀與間接外觀（如次表面散射），超越傳統結構光方法的限制。

閱讀批注人臉辨識

Deep Learning Face Representation from Predicting 10,000 Classes (DeepID)

以多重深度網路提取互補的人臉特徵表示，在 LFW 上達到 97.45% 準確率，驗證深度學習在人臉辨識的潛力。

閱讀批注框架

Caffe: Convolutional Architecture for Fast Feature Embedding

以模組化設計與高效能 GPU 實作打造的深度學習框架，成為早期電腦視覺研究最廣泛使用的工具之一。

閱讀批注動作辨識

Human Action Recognition by Representing 3D Skeletons as Points in a Lie Group

將骨架序列建模為李群上的曲線，以微分幾何方法提取旋轉不變特徵，為骨架動作辨識引入嚴謹的數學框架。

閱讀批注 3D 重建

Fast Image Matching with Cascade Hashing for 3D Reconstruction

以級聯雜湊策略大幅加速大規模影像匹配，為 3D 重建管線中的特徵匹配瓶頸提供高效解決方案。

閱讀批注多目標追蹤

Multi-Object Tracking via Constrained Sequential Labeling

將多目標追蹤轉化為約束序列標籤問題，以全域最佳化求解軌跡關聯，在 MOT 基準上達到領先效能。

閱讀批注

12 篇代表性論文 · 投稿 1,816 / 收錄 472 / 接收率 26.0%

BEST PAPER

物件偵測

Fast, Accurate Detection of 100,000 Object Classes on a Single Machine

在單一機器上以分層式分類器實現十萬類物件的快速偵測，突破大規模物件辨識的計算瓶頸。

閱讀批注

BEST STUDENT PAPER

影像復原

Discriminative Non-blind Deblurring

以判別式學習方法取代傳統去摺積的生成式框架，直接從模糊影像回歸清晰結果，速度與品質均優於傳統方法。

閱讀批注

HONORABLE MENTION

視覺定位

Lost! Leveraging the Crowd for Probabilistic Visual Self-Localization

利用群眾外包的影像資料建立機率式視覺自定位系統，從大規模非結構化照片集中估計相機位置。

閱讀批注目標追蹤

Online Object Tracking: A Benchmark

建立包含 51 個序列的目標追蹤基準資料集 OTB，以系統化評測框架促進追蹤演算法的公平比較與進步。

閱讀批注 SLAM

SLAM++: Simultaneous Localisation and Mapping at the Level of Objects

將 SLAM 提升至物件層級，以已知物件模型作為地標，同時估計相機位姿與物件 6DoF 姿態。

閱讀批注行人偵測

Pedestrian Detection with Unsupervised Multi-Stage Feature Learning

以非監督式多階段特徵學習取代手工特徵，驗證從無標注資料學習到的特徵在行人偵測上的有效性。

閱讀批注 RGB-D 場景

Perceptual Organization and Recognition of Indoor Scenes from RGB-D Images

結合 RGB 與深度資訊進行室內場景的感知組織與辨識，以結構化預測理解房間佈局與物件配置。

閱讀批注動作辨識

HON4D: Histogram of Oriented 4D Normals for Activity Recognition from Depth Sequences

以 4D 時空法向量直方圖描述深度影片中的動態模式，為基於深度的動作辨識提供有效的手工特徵描述子。

閱讀批注 3D 重建

Joint 3D Scene Reconstruction and Class Segmentation

同時進行 3D 場景重建與類別語義分割，以聯合推論讓幾何重建與語義理解相互增強。

閱讀批注顯著性

Hierarchical Saliency Detection

以層次式方法結合多尺度顯著性線索，從細粒度到粗粒度逐層融合產生精確的顯著性偵測圖。

閱讀批注人臉偵測

Detecting and Aligning Faces by Image Retrieval

以影像檢索方式進行人臉偵測與對齊，從大規模人臉資料庫中匹配相似姿態以估計人臉特徵點位置。

閱讀批注多目標追蹤

Multi-target Tracking by Lagrangian Relaxation to Min-cost Network Flow

以拉格朗日鬆弛法將多目標追蹤轉化為最小費用網路流問題，在保證近似最優的同時高效求解。

閱讀批注

深度解讀電腦視覺論文

電腦視覺必讀的經典論文

熱門研究領域

CVPR 論文精選

VGGT: Visual Geometry Grounded Transformer

Neural Inverse Rendering from Propagating Light

MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos

Navigation World Models

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

3D Student Splatting and Scooping

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

OmniGen: Unified Image Generation

Generative Image Dynamics

Rich Human Feedback for Text-to-Image Generation

Mip-Splatting: Alias-free 3D Gaussian Splatting

BioCLIP: A Vision Foundation Model for the Tree of Life

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

YOLO-World: Real-Time Open-Vocabulary Object Detection

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

Objects as Volumes: A Stochastic Geometry View of Opaque Solids

Visual Programming: Compositional Visual Reasoning Without Training

Planning-oriented Autonomous Driving

DynIBaR: Neural Dynamic Image-Based Rendering

3D Registration with Maximal Cliques

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

ImageBind: One Embedding Space To Bind Them All

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

ODISE: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

Scaling Up GANs for Text-to-Image Synthesis

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation

Learning to Solve Hard Minimal Problems

Dual-Shutter Optical Vibration Sensing

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

Masked Autoencoders Are Scalable Vision Learners

High-Resolution Image Synthesis with Latent Diffusion Models

A ConvNet for the 2020s

Swin Transformer V2: Scaling Up Capacity and Resolution

Masked-attention Mask Transformer for Universal Image Segmentation

DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

Restormer: Efficient Transformer for High-Resolution Image Restoration

Point-NeRF: Point-based Neural Radiance Fields

GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

Exploring Simple Siamese Representation Learning

NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections

RepVGG: Making VGG-Style ConvNets Great Again

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

D-NeRF: Neural Radiance Fields for Dynamic Scenes

Real-Time High-Resolution Background Matting

End-to-End Video Instance Segmentation with Transformers

RAFT-3D: Scene Flow Using Rigid-Motion Embeddings

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

BSP-Net: Generating Compact Meshes via Binary Space Partitioning

Momentum Contrast for Unsupervised Visual Representation Learning

EfficientDet: Scalable and Efficient Object Detection

PointRend: Image Segmentation as Rendering

3D Photography using Context-aware Layered Depth Inpainting

HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

Circle Loss: A Unified Perspective of Pair Similarity Optimization

X3D: Expanding Architectures for Efficient Video Recognition

DeepCap: Monocular Human Performance Capture Using Weak Supervision

Adversarial Latent Autoencoders

A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

ArcFace: Additive Angular Margin Loss for Deep Face Recognition

A Style-Based Generator Architecture for Generative Adversarial Networks

Semantic Image Synthesis with Spatially-Adaptive Normalization