深度解讀電腦視覺論文

經典到前沿 — Annotated & Bilingual

收錄電腦視覺領域的奠基經典與頂會(CVPR、ICCV、ECCV)的代表性論文, 涵蓋影像分類、物件偵測、語義分割、3D 視覺、生成模型、多模態學習等核心主題, 每篇皆附中英雙語對照與多維度深度分析解讀。

電腦視覺必讀的經典論文

在深入 CVPR / ICCV / ECCV 前沿研究之前,建議先了解這些奠基之作

ResNet 2015 · CVPR Best Paper
Deep Residual Learning for Image Recognition
解決了深度神經網路無法訓練得太深的問題,透過殘差連接讓梯度順暢傳遞,是現代 CNN(摺積神經網路)的基礎架構。
閱讀批注
YOLO 2016 · CVPR
You Only Look Once: Unified, Real-Time Object Detection
將物件偵測轉化為單一的迴歸問題,以端到端架構實現即時推論,開啟了即時偵測的新紀元。
閱讀批注
ViT 2020 · ICLR 2021
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
成功將自然語言處理領域的 Transformer 架構引入電腦視覺,是目前許多先進模型(包含各大生成式 AI 底層)的核心基礎。
閱讀批注
Transformer 2017 · NeurIPS
Attention Is All You Need
以純注意力機制取代遞迴與摺積架構,提出的 Transformer 成為 NLP 與電腦視覺等領域幾乎所有現代模型的基礎骨架。
閱讀批注
DDPM 2020 · NeurIPS
Denoising Diffusion Probabilistic Models
理解目前主流擴散模型的必讀開山之作,以逐步去噪的機率框架實現高品質影像生成,奠定了 Stable Diffusion 等模型的理論基礎。
閱讀批注
探索論文引用譜系
以互動式力導向圖呈現 317 篇論文之間的引用脈絡,直觀掌握電腦視覺技術的演進關係與影響力傳播。
開啟引用關聯圖
317
Papers
664
Citations

熱門研究領域

CVPR / ICCV 共通的核心研究方向 · 點擊關鍵詞篩選相關論文

3D Vision / Point Cloud3D 視覺/點雲 Object Detection物件偵測 Semantic Segmentation語義分割 Video Understanding影片理解 GAN / Image Synthesis生成對抗網路 Efficient Networks高效網路設計 Vision Transformer視覺 Transformer NeRF / Neural Rendering神經輻射場 Diffusion Models擴散模型 Real-Time Networks即時推論網路 Human Pose Estimation人體姿態估計 Face Recognition人臉辨識 Image Restoration影像修復 Vision Foundation Models視覺基礎模型 Multimodal Learning多模態學習 3D Gaussian Splatting3D 高斯潑灑 Self-Supervised Learning自監督學習 Residual Learning殘差學習演進 Optical Flow光流估測 Masked Image Modeling遮罩影像建模 Image Editing影像編輯 Depth Estimation深度估計 Style & Color Transfer風格與色彩轉換 SLAM同步定位與建圖 Autonomous Driving自動駕駛 3D Generation3D 生成 Vision-Language Models視覺語言模型 Universal Segmentation統一分割框架 Open-Vocabulary開放詞彙辨識 Edge Detection邊緣偵測 Domain Adaptation領域適應 Controllable Generation可控生成 World Models世界模型 Inverse Rendering逆渲染 Contrastive Learning對比學習

CVPR 論文精選

Conference on Computer Vision and Pattern Recognition · 2013-2025

13
收錄屆次
156
精選論文
10+
研究領域
歷年投稿與收錄篇數
歷年錄取率

12 篇代表性論文 · 投稿 13,008 / 收錄 2,878 / 接收率 22.1%

BEST PAPER
3D 多視角幾何

VGGT: Visual Geometry Grounded Transformer

前饋式神經網路從一張到數百張視角直接估測所有關鍵 3D 場景屬性,在多項 3D 任務達到最先進水準。

閱讀批注
BEST STUDENT PAPER
逆渲染

Neural Inverse Rendering from Propagating Light

首個基於物理的神經逆渲染系統,從傳播光的多視角影片中恢復場景幾何、材質與光源屬性。

閱讀批注
HONORABLE MENTION
結構與運動

MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos

從隨手拍攝的動態場景單目影片中實現精準、快速且穩健的相機追蹤與深度估測。

閱讀批注
HONORABLE MENTION
世界模型

Navigation World Models

以條件擴散 Transformer 預測未來視覺觀測的導航世界模型,可在陌生環境中規劃導航軌跡。

閱讀批注
HONORABLE MENTION
視覺語言模型

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

完全開源的視覺語言模型家族,72B 版本超越多個閉源模型,不依賴專有資料從零建構。

閱讀批注
HONORABLE MENTION
神經渲染

3D Student Splatting and Scooping

以 Student-t 分布取代高斯分布,結合正負密度潑灑與挖取,以更少元件達到更高品質 3D 渲染。

閱讀批注
STUDENT HONORABLE
多模態預訓練

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

利用擴散時間步學習離散遞迴視覺標記,統一框架中同時達到多模態理解與生成最先進水準。

閱讀批注
即時 SLAM

MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors

以 MASt3R 兩視角 3D 重建先驗為基礎的即時單目稠密 SLAM 系統,15 FPS 產生全域一致位姿與幾何。

閱讀批注
統一多模態

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

將視覺編碼解耦為獨立路徑,在統一自迴歸 Transformer 中同時實現多模態理解與生成。

閱讀批注
3D 生成

TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation

統一結構化 3D 潛在表示可解碼為輻射場、高斯與網格等多種格式,20 億參數模型大幅超越現有方法。

閱讀批注
影片深度估測

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

從影像到影片擴散模型訓練,實現開放世界影片的時序一致長深度序列生成,單次可達 110 幀。

閱讀批注
統一影像生成

OmniGen: Unified Image Generation

極簡架構(VAE + Transformer)的統一影像生成模型,支援任意交錯文字與影像輸入,無需額外插件。

閱讀批注

12 篇代表性論文 · 投稿 11,532 / 收錄 2,719 / 接收率 23.6%

BEST PAPER
影像動態生成

Generative Image Dynamics

從單張靜態影像建模自然振盪動態,以傅立葉域擴散先驗產生逼真的影像動畫與互動式模擬。

閱讀批注
BEST PAPER
文字到影像

Rich Human Feedback for Text-to-Image Generation

建立 RichHF-18K 資料集提供區域級熱力圖與文字錯位標注,以細粒度人類回饋改善影像生成品質。

閱讀批注
BEST STUDENT PAPER
3D 高斯潑灑

Mip-Splatting: Alias-free 3D Gaussian Splatting

引入 3D 平滑濾波與 2D Mip 濾波消除 3D Gaussian Splatting 的混疊偽影,實現跨尺度一致渲染。

閱讀批注
BEST STUDENT PAPER
生物視覺基礎模型

BioCLIP: A Vision Foundation Model for the Tree of Life

以 TreeOfLife-10M(1040 萬影像、45 萬分類群)訓練 CLIP 模型,在生物分類上超越通用 CLIP 達 17%。

閱讀批注
HONORABLE MENTION
3D 重建

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

前饋式模型從僅兩張輸入影像預測 3D 高斯潑灑,實現即時可泛化的 3D 重建。

閱讀批注
深度估計

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

以 6200 萬影像訓練的單目深度估計基礎模型,達到前所未有的零樣本穩健性與泛化能力。

閱讀批注
開放詞彙偵測

YOLO-World: Real-Time Open-Vocabulary Object Detection

以 RepVL-PAN 融合視覺與語言特徵,將即時 YOLO 偵測擴展至開放詞彙場景。

閱讀批注
多模態基礎模型

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

統一提示式視覺基礎模型,以 FLD-5B 資料集預訓練,單一架構處理偵測、分割、描述與定位。

閱讀批注
視覺語言模型

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

將視覺基礎模型擴展至 60 億參數(InternViT-6B),以漸進式 LLM 對齊在 32 項基準達到最佳。

閱讀批注
動態 3D 渲染

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

將 3D 高斯潑灑擴展至 4D,以神經體素編碼實現動態場景即時渲染(RTX 3090 達 82 FPS)。

閱讀批注
高效分割

EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

以 SAMI 遮罩影像預訓練重建 SAM 編碼器特徵,大幅縮小模型規模同時維持分割品質。

閱讀批注
HONORABLE MENTION
渲染理論

Objects as Volumes: A Stochastic Geometry View of Opaque Solids

以隨機幾何理論建模不透明固體的體積表示,證明指數型體積光傳輸的成立條件。

閱讀批注

12 篇代表性論文 · 投稿 9,155 / 收錄 2,359 / 接收率 25.8%

BEST PAPER
視覺推理

Visual Programming: Compositional Visual Reasoning Without Training

以程式碼生成方式組合視覺模組,無需訓練即可完成複雜視覺推理任務,開創模組化視覺推理新範式。

閱讀批注
BEST PAPER
自動駕駛

Planning-oriented Autonomous Driving

首個將全棧駕駛任務(感知、預測、規劃)統一於單一網路的端到端自動駕駛框架 UniAD。

閱讀批注
HONORABLE MENTION
新視角合成

DynIBaR: Neural Dynamic Image-Based Rendering

從單目影片合成動態場景的新視角,結合運動感知的體積影像渲染,處理複雜的場景運動。

閱讀批注
BEST STUDENT PAPER
點雲配準

3D Registration with Maximal Cliques

提出基於最大團的穩健 3D 點雲配準方法,在 3DMatch 與 KITTI 基準上達到最先進精度與效率。

閱讀批注
STUDENT HONORABLE
擴散模型

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

僅需少量主題影像即可微調擴散模型,生成該主題在不同場景中的新影像,實現個人化影像生成。

閱讀批注
視覺基礎模型

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

以可變形摺積 DCNv3 為核心運算子,建構十億參數級視覺基礎模型,在 16 個基準上達到最佳。

閱讀批注
多模態學習

ImageBind: One Embedding Space To Bind Them All

學習跨六種模態(影像、文字、音訊、深度、紅外、IMU)的聯合嵌入空間,僅需影像配對資料。

閱讀批注
自監督學習

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

以遮罩影像-文字對齊特徵重建為預訓練任務,高效擴展 ViT 至十億參數,刷新多項下游任務紀錄。

閱讀批注
開放詞彙分割

ODISE: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

結合預訓練的文字-影像擴散模型與判別式模型,實現開放詞彙全景分割。

閱讀批注
GAN / 影像生成

Scaling Up GANs for Text-to-Image Synthesis

首次將 GAN 成功擴展用於文字到影像合成,推理速度比擴散模型快數個量級,支援即時影像編輯。

閱讀批注
偵測與分割

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

在 DINO 偵測器上擴展遮罩預測分支,以統一架構在偵測、實例分割與全景分割上同時達到最佳。

閱讀批注
3D 生成

Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation

透過鏈式法則將 2D 擴散模型的分數函數反向傳播穿過可微分渲染器,實現從預訓練 2D 模型生成 3D 內容。

閱讀批注

12 篇代表性論文 · 投稿 8,161 / 收錄 2,067 / 接收率 25.3%

BEST PAPER
幾何視覺

Learning to Solve Hard Minimal Problems

提出學習策略選擇起始問題-解對,透過數值延拓避免計算大量假解,在 RANSAC 框架下以平均 70 微秒即時求解困難最小問題。

閱讀批注
HONORABLE MENTION
計算攝影

Dual-Shutter Optical Vibration Sensing

利用滾動快門與全域快門雙相機系統,以僅 130Hz 的感測器同時感測多個場景源的高速振動,頻率可達 63kHz。

閱讀批注
BEST STUDENT PAPER
姿態估計

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

提出機率式 PnP 層用於通用端到端姿態估計,在 SE(3) 流形上輸出姿態分佈,達到 LineMOD 與 nuScenes 領先成績。

閱讀批注
STUDENT HONORABLE
神經輻射場

Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

以反射輻射參數化取代 NeRF 原有的視角依賴表示,結合整合方向編碼,大幅改善光澤表面的渲染品質。

閱讀批注
自監督學習

Masked Autoencoders Are Scalable Vision Learners

以非對稱編碼器-解碼器架構隨機遮罩 75% 影像區塊並重建,將 ViT-Huge 在 ImageNet-1K 上推至 87.8% 準確率。

閱讀批注
擴散模型

High-Resolution Image Synthesis with Latent Diffusion Models

在預訓練自編碼器的潛在空間執行擴散,搭配交叉注意力實現文本條件化生成,為 Stable Diffusion 的技術基礎。

閱讀批注
網路架構

A ConvNet for the 2020s

從 ResNet 逐步現代化至 Transformer 風格設計,產出純摺積網路 ConvNeXt,在分類、偵測與分割均超越 Swin Transformer。

閱讀批注
Vision Transformer

Swin Transformer V2: Scaling Up Capacity and Resolution

提出殘差後正規化、餘弦注意力與對數間距位置偏差三項技術,成功將 Swin Transformer 擴展至 30 億參數。

閱讀批注
統一分割

Masked-attention Mask Transformer for Universal Image Segmentation

提出遮罩注意力機制,單一架構統一處理全景、實例與語意分割,三項基準均達當時最佳。

閱讀批注
物體偵測

DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

揭示 DETR 收斂慢源於二分圖匹配不穩定性,提出查詢去噪訓練策略,通用性強可插入任何 DETR 類方法。

閱讀批注
影像修復

Restormer: Efficient Transformer for High-Resolution Image Restoration

提出高效能 Transformer 模型處理大尺寸影像,在去雨、去模糊、去雜訊等多項影像修復任務達到最佳成績。

閱讀批注
3D 重建

Point-NeRF: Point-based Neural Radiance Fields

結合神經 3D 點雲與體積渲染,透過預訓練深度網路直接初始化神經點雲,訓練速度提升 30 倍並超越 NeRF 品質。

閱讀批注

12 篇代表性論文 · 投稿 7,093 / 收錄 1,660 / 接收率 23.7%

BEST PAPER
場景生成

GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

結合 GAN 與神經輻射場,以組合式場景表徵實現對物體形狀、外觀、姿態與相機視角的解糾纏控制。

閱讀批注
自監督學習

Exploring Simple Siamese Representation Learning

證明簡單的孿生網路無需負樣本、大批次或動量編碼器即可學習有意義的視覺表徵。

閱讀批注
新視角合成

NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections

將 NeRF 擴展至非受控環境,處理光照變化與瞬態遮蔽物,從網路照片集重建 3D 場景。

閱讀批注
網路架構

RepVGG: Making VGG-Style ConvNets Great Again

以結構重參數化技術解耦訓練與推論架構,推論時僅需 3x3 摺積與 ReLU 即達 80%+ ImageNet 精度。

閱讀批注
語義分割

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

以純 Transformer 編碼器將語義分割重塑為序列到序列預測任務,在 ADE20K 上達到 50.28% mIoU。

閱讀批注
動態場景

D-NeRF: Neural Radiance Fields for Dynamic Scenes

將神經輻射場擴展至動態場景,以時間條件變形網路將觀測空間點映射至正準空間。

閱讀批注
影像摳圖

Real-Time High-Resolution Background Matting

以兩階段架構實現 4K@30fps 的即時背景摳圖,僅需額外一張背景影像即可精確分離前景。

閱讀批注
影片實例分割

End-to-End Video Instance Segmentation with Transformers

首個端到端 Transformer 影片實例分割框架,同時處理分割與追蹤,達到 VIS 模型最高速度。

閱讀批注
場景流

RAFT-3D: Scene Flow Using Rigid-Motion Embeddings

以剛體運動嵌入表徵像素的軟性分組,迭代更新逐像素 SE3 運動場,實現精確的 3D 場景流估計。

閱讀批注
Vision Transformer

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

以漸進式 Token 聚合模組建模局部結構,使 ViT 無需大規模預訓練即可從零訓練達到 81.5% ImageNet 精度。

閱讀批注
物件偵測

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

首個針對 Transformer 偵測器的無監督預訓練方法,以隨機查詢補丁偵測為前置任務加速收斂。

閱讀批注
人體深度估計

Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

從社群媒體舞蹈影片中以自監督方式學習穿著衣物人體的高保真深度,捕捉衣物皺褶等細緻幾何。

閱讀批注

12 篇代表性論文 · 投稿 6,656 / 收錄 1,467 / 接收率 22.0%

BEST PAPER
3D 重建

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

以機率對稱性為先驗,從無標注單視角影像中學習可變形 3D 物體的深度、反照率與視角分解。

閱讀批注
BEST STUDENT PAPER
3D 形狀生成

BSP-Net: Generating Compact Meshes via Binary Space Partitioning

借鑑二元空間分割的古典技術,以神經網路直接生成緊湊且保證水密的多邊形網格。

閱讀批注
自監督學習

Momentum Contrast for Unsupervised Visual Representation Learning

以動量更新的動態字典實現大規模對比學習,在多項下游任務中縮小無監督與監督式學習的差距。

閱讀批注
物件偵測

EfficientDet: Scalable and Efficient Object Detection

提出 BiFPN 與複合縮放策略,以數倍更少的參數與計算量達到最先進的偵測精度。

閱讀批注
影像分割

PointRend: Image Segmentation as Rendering

將影像分割視為渲染問題,在自適應選取的邊界點上進行精細預測,產生更清晰的物件邊界。

閱讀批注
3D 攝影

3D Photography using Context-aware Layered Depth Inpainting

從單張 RGB-D 影像生成具視差效果的 3D 照片,以情境感知修復模型填補遮蔽區域。

閱讀批注
人體姿態估計

HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

以高解析度特徵金字塔實現尺度感知的由下而上多人姿態估計,顯著改善中小型人物的偵測。

閱讀批注
3D 人體重建

PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

以多層級像素對齊隱式函數解決解析度與語境的取捨,從單張影像重建高解析度 3D 人體。

閱讀批注
度量學習

Circle Loss: A Unified Perspective of Pair Similarity Optimization

以圓形決策邊界統一配對相似度最佳化,在人臉辨識、行人重識別與細粒度檢索上達到最先進效能。

閱讀批注
影片辨識

X3D: Expanding Architectures for Efficient Video Recognition

從微型 2D 模型出發,沿多軸漸進擴展,以數倍更少的計算量達到最先進的影片辨識效能。

閱讀批注
人體動態捕捉

DeepCap: Monocular Human Performance Capture Using Weak Supervision

以弱監督多視角訊號訓練,實現從單目影片進行密集人體動態捕捉,無需 3D 標注資料。

閱讀批注
生成模型

Adversarial Latent Autoencoders

首個可媲美並超越純生成器架構的自編碼器,在 1024x1024 人臉生成與真實影像操控上達到 StyleGAN 水準。

閱讀批注

12 篇代表性論文 · 投稿 5,160 / 收錄 1,294 / 接收率 25.2%

BEST PAPER
非視線重建

A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

提出費馬路徑理論,解決非視線(NLOS)場景下的形狀重建問題,為隱藏物體的感知開創了全新的數學框架。

閱讀批注
人臉辨識

ArcFace: Additive Angular Margin Loss for Deep Face Recognition

提出加性角度邊距損失函數,透過在超球面上的角度空間施加清晰的幾何約束,大幅提升人臉辨識效能。

閱讀批注
GAN/影像生成

A Style-Based Generator Architecture for Generative Adversarial Networks

以風格遷移為靈感重新設計生成器架構,實現對生成影像各層級屬性的精細控制,樹立高品質影像合成新標竿。

閱讀批注
語義影像合成

Semantic Image Synthesis with Spatially-Adaptive Normalization

提出空間自適應正規化技術(SPADE),以語義標籤圖驅動高品質影像生成,保留空間語義資訊的完整性。

閱讀批注
3D 形狀表示

DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation

利用深度學習習得連續的有符號距離函數(SDF),以隱式表示法建模複雜 3D 形狀,實現高效形狀補全與生成。

閱讀批注
3D 物件偵測

PointRCNN: 3D Object Proposal Generation and Detection From Point Cloud

直接從原始點雲生成 3D 候選框並進行精煉偵測,無需投影至 2D 視圖,於自駕場景中達到領先精度。

閱讀批注
物件追蹤/分割

Fast Online Object Tracking and Segmentation: A Unifying Approach

將視覺物件追蹤與半監督影片物件分割統一在孿生網路框架中,同時輸出邊界框與像素級遮罩。

閱讀批注
神經架構搜尋

Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

首次將神經架構搜尋(NAS)拓展至語義分割的網路層級結構設計,自動發現最優的多尺度特徵融合路徑。

閱讀批注
物件偵測

Libra R-CNN: Towards Balanced Learning for Object Detection

從樣本、特徵與目標三個層面系統性地解決物件偵測中的不平衡問題,以簡潔的方法帶來顯著的效能提升。

閱讀批注
影像分類

Bag of Tricks for Image Classification with CNNs

系統性整理影像分類訓練中常被忽略的技巧(學習率策略、資料增強等),驗證其對模型精度的累積效果。

閱讀批注
物件偵測

Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

提出廣義交集比(GIoU)作為邊界框迴歸的損失函數,解決傳統 IoU 在不重疊情況下梯度為零的根本缺陷。

閱讀批注
3D 人臉重建

GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction

結合 GAN 與 3D 可形變模型,從單張照片重建高保真度的 3D 人臉,在紋理細節與幾何精度上超越傳統方法。

閱讀批注

12 篇代表性論文 · 投稿 3,303 / 收錄 979 / 接收率 29.6%

BEST PAPER
遷移學習

Taskonomy: Disentangling Task Transfer Learning

建立 26 項視覺任務之間的遷移關係計算圖譜,揭示任務間結構化相依性,為遷移學習選擇提供系統化依據。

閱讀批注
BEST STUDENT PAPER
3D 人體

Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies

統一追蹤人臉、雙手與全身的 3D 可變形模型,以 Frank 模型實現完整人體動態的同步捕捉。

閱讀批注
影片理解

Non-local Neural Networks

提出非區域運算模組捕捉長距離時空依賴關係,可即插即用嵌入任何深度網路,顯著提升影片分類準確率。

閱讀批注
網路架構

Squeeze-and-Excitation Networks

以通道注意力機制動態重校準特徵響應,以極小的額外參數代價獲得顯著效能提升,贏得 ImageNet 2017 冠軍。

閱讀批注
GAN

StarGAN: Unified GANs for Multi-Domain Image-to-Image Translation

以單一生成器實現多領域影像轉換,無需為每對領域訓練獨立模型,大幅提升多屬性臉部編輯效率。

閱讀批注
高效架構

MobileNetV2: Inverted Residuals and Linear Bottlenecks

提出反轉殘差與線性瓶頸結構,在行動裝置上以極低計算量實現高效能影像分類與物件偵測。

閱讀批注
影像合成

High-Resolution Image Synthesis with Conditional GANs

以多尺度生成器與判別器架構搭配特徵匹配損失,從語義標籤圖合成高達 2048x1024 解析度的逼真影像。

閱讀批注
姿態估計

DensePose: Dense Human Pose Estimation In The Wild

建立從 RGB 影像到人體表面 UV 座標的密集對應關係,以 DensePose-COCO 資料集推動密集人體姿態估計研究。

閱讀批注
GAN

Progressive Growing of GANs

以漸進式成長策略從低解析度開始逐步增加層數,穩定訓練過程並首次生成 1024x1024 的高品質人臉影像。

閱讀批注
影片理解

A Closer Look at Spatiotemporal Convolutions for Action Recognition

系統性比較 2D、3D 與分解式時空摺積架構,證明 R(2+1)D 分解可同時提升精度與訓練效率。

閱讀批注
HONORABLE MENTION
圖匹配

Deep Learning of Graph Matching

以深度學習端到端求解圖匹配問題,將組合最佳化嵌入神經網路訓練迴圈,在視覺對應任務上大幅超越傳統方法。

閱讀批注
HONORABLE MENTION
點雲

SPLATNet: Sparse Lattice Networks for Point Cloud Processing

在稀疏高維格點上以雙邊摺積層處理點雲,支援 2D-3D 聯合推理,在語義分割任務上達到領先成績。

閱讀批注

12 篇代表性論文 · 投稿 2,620 / 收錄 783 / 接收率 29.9%

BEST PAPER
網路架構

Densely Connected Convolutional Networks

以密集連接讓每一層接收所有前層的特徵圖,實現最大化特徵重用與梯度流通,以更少參數達到更高準確率。

閱讀批注
BEST PAPER
GAN/領域適應

Learning from Simulated and Unsupervised Images through Adversarial Training

以對抗訓練精煉合成影像使其逼近真實影像分布,在保留標注資訊的同時提升模擬資料的真實感。

閱讀批注
3D 點雲

PointNet: Deep Learning on Point Sets

首個直接在無序點集上操作的深度學習架構,以對稱函數與空間變換網路實現點雲分類與語義分割。

閱讀批注
物件偵測

Feature Pyramid Networks for Object Detection

以自上而下的特徵金字塔與橫向連接融合多尺度語義,成為後續幾乎所有偵測器的標準特徵提取架構。

閱讀批注
GAN

Image-to-Image Translation with Conditional Adversarial Networks

以條件式 GAN 建立通用的影像到影像轉換框架,從邊緣圖生成照片、語義標籤到街景等多種任務共用單一架構。

閱讀批注
姿態估計

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

以部位親和場編碼肢體關聯性,實現即時的由下而上多人姿態估計,成為人體姿態估計領域的標誌性工作。

閱讀批注
語義分割

Pyramid Scene Parsing Network

以金字塔池化模組聚合多尺度全域情境資訊,在 ADE20K、Cityscapes 等場景解析基準上達到當時最佳成績。

閱讀批注
網路架構

Aggregated Residual Transformations (ResNeXt)

以分組摺積引入基數維度,在不增加計算複雜度的前提下提升模型容量,為 ResNet 系列的重要演進。

閱讀批注
超解析度

Photo-Realistic Single Image Super-Resolution Using a GAN

首次將 GAN 應用於超解析度任務,以感知損失與對抗損失生成照片級真實感的 4 倍放大影像。

閱讀批注
物件偵測

Deformable Convolutional Networks

以可學習偏移量讓摺積核自適應變形以匹配物體形狀,大幅增強模型對幾何變換的建模能力。

閱讀批注
HONORABLE MENTION
實例分割

Annotating Object Instances with a Polygon-RNN

以 RNN 自動回歸預測多邊形頂點序列進行物件輪廓標注,將分割標注時間減少至人工的數分之一。

閱讀批注
BEST STUDENT PAPER
計算攝影

Computational Imaging on the Electric Grid

利用電網中的電壓波動作為感測訊號進行計算成像,開創從基礎設施數據推斷視覺場景資訊的新範式。

閱讀批注

12 篇代表性論文 · 投稿 2,145 / 收錄 643 / 接收率 29.9%

BEST STUDENT PAPER
時空圖

Structural-RNN: Deep Learning on Spatio-Temporal Graphs

將時空圖結構轉化為 RNN 混合體,以語義圖中的節點與邊映射至獨立 RNN 單元,實現結構化時序預測。

閱讀批注
HONORABLE MENTION
最佳化

Sublabel-Accurate Relaxation of Nonconvex Energies

提出次標籤精度的凸鬆弛方法求解非凸能量最小化,在光流與深度估計等連續值問題上達到更精確的解。

閱讀批注
網路架構

Rethinking the Inception Architecture

系統性提出摺積分解、輔助分類器與標籤平滑等設計原則,將 Inception 網路在 ImageNet 上推至 21.2% top-1 錯誤率。

閱讀批注
可解釋性

Learning Deep Features for Discriminative Localization (CAM)

以全域平均池化層的類別權重產生類別啟動熱力圖,揭示 CNN 在分類決策中關注的影像區域。

閱讀批注
影像修復

Context Encoders: Feature Learning by Inpainting

以編碼器-解碼器架構搭配對抗損失學習影像修復,同時作為自監督特徵學習的有效前置任務。

閱讀批注
3D 偵測

Deep Sliding Shapes for Amodal 3D Object Detection

在 3D 體素空間中以深度網路直接進行 3D 物件偵測,以多尺度 3D RPN 處理室內場景的遮蔽物體。

閱讀批注
VQA

Stacked Attention Networks for Image Question Answering

以多層堆疊注意力機制逐步聚焦與問題相關的影像區域,在視覺問答基準上達到顯著效能提升。

閱讀批注
動作辨識

NTU RGB+D: A Large Scale Dataset for 3D Human Activity Analysis

建立包含 56,880 個樣本的大規模 RGB+D 動作辨識資料集,成為骨架動作辨識領域最廣泛使用的基準。

閱讀批注
物件偵測

Training Region-based Object Detectors with Online Hard Example Mining

以線上困難範例挖掘策略自動選取高損失的訓練樣本,無需手動調整正負樣本比例即可提升偵測效能。

閱讀批注
影片理解

Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs

以多階段 CNN 架構在未裁剪影片中進行時序動作定位,結合提案生成與分類實現端到端動作偵測。

閱讀批注
3D 對應

Learning Dense Correspondence via 3D-Guided Cycle Consistency

以 3D 引導的循環一致性約束學習密集影像對應關係,在無需逐點標注的情況下建立跨視角幾何對應。

閱讀批注
3D 理解

Single Image 3D Interpreter Network

從單張影像推斷 3D 物體骨架表示,結合分析合成式訓練策略,以少量 3D 標注實現 3D 幾何推理。

閱讀批注

12 篇代表性論文 · 投稿 2,123 / 收錄 602 / 接收率 28.4%

BEST PAPER
3D 重建

DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time

首個即時重建非剛體動態場景的系統,以變形場融合深度幀序列,從消費級深度相機捕捉任意變形物體。

閱讀批注
HONORABLE MENTION
語義分割

Fully Convolutional Networks for Semantic Segmentation

將分類網路轉化為全摺積架構實現端到端像素級預測,建立現代語義分割方法的基礎範式。

閱讀批注
網路架構

Going Deeper with Convolutions (GoogLeNet / Inception)

以 Inception 模組在多個尺度上平行提取特徵,在 ImageNet 2014 中以 22 層深度贏得冠軍。

閱讀批注
人臉辨識

FaceNet: A Unified Embedding for Face Recognition and Clustering

以三元組損失直接學習歐氏空間中的人臉嵌入向量,在 LFW 上達到 99.63% 準確率,成為人臉辨識經典方法。

閱讀批注
影像描述

Show and Tell: A Neural Image Caption Generator

以 CNN 編碼器搭配 LSTM 解碼器生成自然語言影像描述,開創編碼器-解碼器框架在影像描述的應用。

閱讀批注
影片理解

Long-Term Recurrent Convolutional Networks for Visual Recognition and Description

結合 CNN 視覺特徵與 LSTM 時序建模,統一框架處理動作辨識、影像描述與影片描述等多項視覺任務。

閱讀批注
分割

Hypercolumns for Object Localization and Fine-grained Segmentation

將 CNN 各層特徵垂直堆疊為超柱向量,為每個像素提供多尺度語義描述,提升定位與精細分割效能。

閱讀批注
3D 形狀

3D ShapeNets: A Deep Representation for Volumetric Shapes

以 3D 摺積深度信念網路學習體素化 3D 形狀表示,建立 ModelNet 資料集成為 3D 形狀分類標準基準。

閱讀批注
BEST STUDENT PAPER
3D 重建

Category-Specific Object Reconstruction from a Single Image

從單張影像重建特定類別物體的完整 3D 模型,以類別級形狀先驗克服單視角幾何歧義。

閱讀批注
HONORABLE MENTION
場景理解

Picture: A Probabilistic Programming Language for Scene Perception

以機率程式語言建模場景感知,結合生成模型與貝氏推論實現對場景組成的結構化理解與推理。

閱讀批注
物件偵測

Deformable Part Models are Convolutional Neural Networks

證明經典可變形部件模型等價於特定的 CNN 架構,以統一觀點橋接傳統手工特徵與深度學習偵測方法。

閱讀批注
動作辨識

Hierarchical Recurrent Neural Network for Skeleton Based Action Recognition

以層次式 RNN 將骨架關節按身體部位分組建模,逐層聚合局部到全域的動作時序特徵。

閱讀批注

12 篇代表性論文 · 投稿 1,807 / 收錄 540 / 接收率 29.9%

物件偵測

Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation (R-CNN)

以選擇性搜尋提取候選區域再用 CNN 分類,在 PASCAL VOC 上將 mAP 提升逾 30%,開啟深度學習物件偵測時代。

閱讀批注
人臉辨識

DeepFace: Closing the Gap to Human-Level Performance in Face Verification

以深度神經網路搭配 3D 人臉對齊,在 LFW 基準上達到 97.35% 準確率,首次逼近人類水準的人臉驗證效能。

閱讀批注
BEST PAPER
3D 形狀

What Camera Motion Reveals About Shape with Unknown BRDF

證明在未知 BRDF 條件下,相機運動可揭示場景形狀,從陰影變化中恢復物體三維幾何。

閱讀批注
遷移學習

Learning and Transferring Mid-Level Image Representations using CNNs

系統性研究 CNN 中間層特徵的遷移能力,證明預訓練的中階表徵可有效轉移至多種視覺辨識任務。

閱讀批注
分割

Multiscale Combinatorial Grouping for Image Segmentation and Object Proposal Generation

以多尺度組合分組策略生成高品質物件提案,在 PASCAL VOC 上以更少提案數達到更高的物件覆蓋率。

閱讀批注
BEST STUDENT PAPER
最佳化

Partial Optimality by Pruning for MAP-inference with General Graphical Models

以修剪策略獲得一般圖模型 MAP 推論的部分最優解,為大規模離散最佳化問題提供理論保證的加速方法。

閱讀批注
HONORABLE MENTION
3D 光傳輸

3D Shape and Indirect Appearance by Structured Light Transport

利用結構光傳輸分析同時恢復場景的 3D 形狀與間接外觀(如次表面散射),超越傳統結構光方法的限制。

閱讀批注
人臉辨識

Deep Learning Face Representation from Predicting 10,000 Classes (DeepID)

以多重深度網路提取互補的人臉特徵表示,在 LFW 上達到 97.45% 準確率,驗證深度學習在人臉辨識的潛力。

閱讀批注
框架

Caffe: Convolutional Architecture for Fast Feature Embedding

以模組化設計與高效能 GPU 實作打造的深度學習框架,成為早期電腦視覺研究最廣泛使用的工具之一。

閱讀批注
動作辨識

Human Action Recognition by Representing 3D Skeletons as Points in a Lie Group

將骨架序列建模為李群上的曲線,以微分幾何方法提取旋轉不變特徵,為骨架動作辨識引入嚴謹的數學框架。

閱讀批注
3D 重建

Fast Image Matching with Cascade Hashing for 3D Reconstruction

以級聯雜湊策略大幅加速大規模影像匹配,為 3D 重建管線中的特徵匹配瓶頸提供高效解決方案。

閱讀批注
多目標追蹤

Multi-Object Tracking via Constrained Sequential Labeling

將多目標追蹤轉化為約束序列標籤問題,以全域最佳化求解軌跡關聯,在 MOT 基準上達到領先效能。

閱讀批注

12 篇代表性論文 · 投稿 1,816 / 收錄 472 / 接收率 26.0%

BEST PAPER
物件偵測

Fast, Accurate Detection of 100,000 Object Classes on a Single Machine

在單一機器上以分層式分類器實現十萬類物件的快速偵測,突破大規模物件辨識的計算瓶頸。

閱讀批注
BEST STUDENT PAPER
影像復原

Discriminative Non-blind Deblurring

以判別式學習方法取代傳統去摺積的生成式框架,直接從模糊影像回歸清晰結果,速度與品質均優於傳統方法。

閱讀批注
HONORABLE MENTION
視覺定位

Lost! Leveraging the Crowd for Probabilistic Visual Self-Localization

利用群眾外包的影像資料建立機率式視覺自定位系統,從大規模非結構化照片集中估計相機位置。

閱讀批注
目標追蹤

Online Object Tracking: A Benchmark

建立包含 51 個序列的目標追蹤基準資料集 OTB,以系統化評測框架促進追蹤演算法的公平比較與進步。

閱讀批注
SLAM

SLAM++: Simultaneous Localisation and Mapping at the Level of Objects

將 SLAM 提升至物件層級,以已知物件模型作為地標,同時估計相機位姿與物件 6DoF 姿態。

閱讀批注
行人偵測

Pedestrian Detection with Unsupervised Multi-Stage Feature Learning

以非監督式多階段特徵學習取代手工特徵,驗證從無標注資料學習到的特徵在行人偵測上的有效性。

閱讀批注
RGB-D 場景

Perceptual Organization and Recognition of Indoor Scenes from RGB-D Images

結合 RGB 與深度資訊進行室內場景的感知組織與辨識,以結構化預測理解房間佈局與物件配置。

閱讀批注
動作辨識

HON4D: Histogram of Oriented 4D Normals for Activity Recognition from Depth Sequences

以 4D 時空法向量直方圖描述深度影片中的動態模式,為基於深度的動作辨識提供有效的手工特徵描述子。

閱讀批注
3D 重建

Joint 3D Scene Reconstruction and Class Segmentation

同時進行 3D 場景重建與類別語義分割,以聯合推論讓幾何重建與語義理解相互增強。

閱讀批注
顯著性

Hierarchical Saliency Detection

以層次式方法結合多尺度顯著性線索,從細粒度到粗粒度逐層融合產生精確的顯著性偵測圖。

閱讀批注
人臉偵測

Detecting and Aligning Faces by Image Retrieval

以影像檢索方式進行人臉偵測與對齊,從大規模人臉資料庫中匹配相似姿態以估計人臉特徵點位置。

閱讀批注
多目標追蹤

Multi-target Tracking by Lagrangian Relaxation to Min-cost Network Flow

以拉格朗日鬆弛法將多目標追蹤轉化為最小費用網路流問題,在保證近似最優的同時高效求解。

閱讀批注

ICCV 論文精選

International Conference on Computer Vision · 2013-2025

7
收錄屆次
84
精選論文
7+
研究領域
歷年投稿與收錄篇數
歷年錄取率

12 篇代表性論文 · 投稿 11,239 / 收錄 2,698 / 接收率 24.0%

BEST PAPER
3D 生成

BrickGPT: Generative Model-Guided Brick-by-Brick LEGO Assembly

以生成模型引導逐塊 LEGO 組裝,將 3D 結構生成轉化為序列預測問題,實現自動化積木建造。

閱讀批注
HONORABLE MENTION
計算攝影

AutoFocus: Learning to Focus on Arbitrary Points in the Visual Scene

學習在視覺場景中對任意指定點進行自動對焦,以神經網路模擬真實光學系統的聚焦行為。

閱讀批注
STUDENT HONORABLE
神經渲染

Rayzer: Compositional Neural Rendering for Scenes with Distributed Ray-tracing

以分散式光線追蹤實現組合式神經渲染,支援複雜場景中的反射、折射與全域光照效果。

閱讀批注
影像編輯

FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

無需反轉即可利用預訓練流模型進行文字引導的影像編輯,以流場操控實現精確的語義修改。

閱讀批注
多模態推理

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

讓視覺語言模型以思維鏈方式逐步推理,系統性地分解視覺問題以提升複雜推理準確度。

閱讀批注
分割與理解

SA2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

結合 SAM2 分割能力與 LLaVA 語言理解,實現影像與影片的密集定位語義理解。

閱讀批注
視覺基礎模型

DynamicDINO: End-to-End Dynamic Few-Shot Learning with Foundation Models

以端到端動態少樣本學習架構結合視覺基礎模型,在極少標註下快速適應新類別辨識。

閱讀批注
可控生成

MaskControl: Region-Based Generation with Expressive Mask Conditions

以表達性遮罩條件進行區域級影像生成控制,支援精細的空間佈局與屬性指定。

閱讀批注
3D 場景理解

Hermes: 3D Scene Understanding with Hierarchical Entity Representations

以層次化實體表示進行 3D 場景理解,從物件到房間建立多層次語義結構。

閱讀批注
3D 高斯潑灑

LongSplat: Long-Range 3D Gaussian Splatting for Large-Scale Scenes

將 3D 高斯潑灑擴展至大規模場景,以長距離建模實現遠景與近景的一致高品質渲染。

閱讀批注
場景重建

SceneSplat: Gaussian Splatting-Based Scene Understanding from Sparse Views

從稀疏視角以高斯潑灑為基礎進行場景理解,同時完成幾何重建與語義分割。

閱讀批注
表示學習

DiffusionRep: Diffusion Models as Visual Representation Learners

將擴散模型作為視覺表示學習器,從去噪過程中提取豐富的視覺特徵用於下游任務。

閱讀批注

12 篇代表性論文 · 投稿 8,068 / 收錄 2,160 / 接收率 26.8%

BEST PAPER
UWB 成像

UWB Imaging: Ultra-Wideband Radar Imaging for Dense Scene Reconstruction

以超寬頻雷達成像技術實現密集場景重建,突破傳統光學感測器在惡劣環境下的限制。

閱讀批注
BEST PAPER
可控生成

Adding Conditional Control to Text-to-Image Diffusion Models

ControlNet 為預訓練擴散模型加入條件控制,以邊緣圖、姿態圖等空間條件精確引導影像生成。

閱讀批注
HONORABLE MENTION
視覺基礎模型

Segment Anything

SAM 以 10 億個遮罩的 SA-1B 資料集訓練,建立通用分割基礎模型,支援點、框、文字等多種提示。

閱讀批注
BEST STUDENT PAPER
影片運動分析

OmniMotion: Tracking Everything Everywhere All at Once

以準 3D 標準空間表示追蹤影片中每個像素的完整運動軌跡,實現密集且長程的全域運動估計。

閱讀批注
3D 高斯潑灑

3D Gaussian Splatting for Real-Time Radiance Field Rendering

以 3D 高斯基元取代神經隱式表示,實現即時高品質新視角合成,開創 3D 高斯潑灑技術。

閱讀批注
自監督學習

DINOv2: Learning Robust Visual Features without Supervision

無需標註即可學習穩健的視覺特徵,以自蒸餾方法大規模預訓練產生通用視覺表示。

閱讀批注
影像編輯

AnyDoor: Zero-Shot Object-Level Image Customization

零樣本物件級影像客製化,將任意參考物件自然地傳送到目標場景的指定位置。

閱讀批注
影片生成

LaVie: High-Quality Video Generation with Cascaded Latent Diffusion Models

以級聯潛在擴散模型生成高品質影片,從文字描述產生時序連貫且視覺精細的影片內容。

閱讀批注
神經輻射場

Nerfacto: A Modular Framework for Neural Radiance Fields

模組化的神經輻射場框架,整合多項 NeRF 改進技術為統一流程,降低實驗門檻。

閱讀批注
語言嵌入輻射場

LERF: Language Embedded Radiance Fields

將語言嵌入注入 NeRF 中,實現以自然語言查詢 3D 場景中的物件與區域。

閱讀批注
影像提示適配

IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

以解耦交叉注意力機制為文字到影像擴散模型加入影像提示能力,實現風格與內容遷移。

閱讀批注
影片追蹤

HQTrack: Tracking Anything in High Quality

高品質萬物追蹤框架,結合視覺基礎模型實現精確的半自動影片物件追蹤與分割。

閱讀批注

12 篇代表性論文 · 投稿 6,152 / 收錄 1,617 / 接收率 25.9%

BEST PAPER
Vision Transformer

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

以移位視窗機制建立層次化 Vision Transformer,在分類、偵測、分割等多項任務達到最先進水準。

閱讀批注
BEST STUDENT PAPER
3D 重建

Pixel-Perfect Structure-from-Motion with Featuremetric Refinement

以特徵度量精煉實現像素級精確的 SfM,將深度學習特徵融入傳統多視角幾何流程。

閱讀批注
HONORABLE MENTION
神經輻射場

Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

以錐形追蹤取代射線追蹤消除 NeRF 的混疊偽影,以整合式位置編碼實現多尺度抗鋸齒渲染。

閱讀批注
HONORABLE MENTION
開放集辨識

OpenGAN: Open-Set Recognition via Open Data Generation

以 GAN 生成開放集資料訓練開放集辨識器,有效區分已知類別與未知類別的樣本。

閱讀批注
HONORABLE MENTION
3D 資料集

Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction

大規模真實物件 3D 重建資料集與評估基準,涵蓋 50 類超過 18,000 段影片。

閱讀批注
深度估計

Vision Transformers for Dense Prediction

DPT 將 Vision Transformer 應用於密集預測任務,以全域感受野實現高品質單目深度估計與語義分割。

閱讀批注
Vision Transformer

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

金字塔 Vision Transformer 以漸進式縮小的空間解析度建立多尺度特徵,無需摺積即可作為密集預測骨幹。

閱讀批注
Vision Transformer

Focal Transformer: Focal Self-Attention for Local-Global Interactions in Vision Transformers

以焦點自注意力機制在細粒度局部與粗粒度全域之間建立高效互動,平衡計算效率與表達能力。

閱讀批注
神經輻射場

NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images

從含噪的原始影像進行高動態範圍新視角合成,將 NeRF 擴展至低光與高對比場景。

閱讀批注
統一分割

Per-Pixel Classification is Not All You Need for Semantic Segmentation

MaskFormer 以遮罩分類取代逐像素分類,統一語義、實例與全景分割為單一框架。

閱讀批注
HONORABLE MENTION
多視角幾何

Viewing Graph Solvability via Cycle Consistency

透過循環一致性分析視角圖的可解性,為多視角幾何重建提供理論保證。

閱讀批注
影片理解

Multiscale Vision Transformers

MViT 以多尺度特徵層次建立影片 Vision Transformer,在動作辨識等影片理解任務達到最先進水準。

閱讀批注

12 篇代表性論文 · 投稿 4,303 / 收錄 1,075 / 接收率 25.0%

BEST PAPER
影像生成

SinGAN: Learning a Generative Model from a Single Natural Image

僅從單張自然影像學習生成模型,以多尺度 GAN 架構捕捉影像的內部補丁分布實現多樣化生成。

閱讀批注
BEST STUDENT PAPER
幾何視覺

PLMP - Point-Line Minimal Problems in Complete Multi-View Visibility

在完整多視角可見性下研究點線最小問題,為多視角幾何提供新的最小求解器。

閱讀批注
資料增強

CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features

以剪切混合策略將一張影像的區域貼到另一張上並混合標籤,訓練出更強且具定位能力的分類器。

閱讀批注
物件偵測

FCOS: Fully Convolutional One-Stage Object Detection

全摺積單階段物件偵測器,以逐像素預測取代錨框機制,簡化偵測流程並達到競爭力表現。

閱讀批注
3D 物件偵測

Deep Hough Voting for 3D Object Detection in Point Clouds

以深度霍夫投票在點雲中進行 3D 物件偵測,將經典投票機制與深度學習結合實現端到端訓練。

閱讀批注
影片理解

SlowFast Networks for Video Recognition

以慢速與快速雙路徑分別捕捉空間語義與時間動態,在影片辨識任務達到最先進水準。

閱讀批注
3D 重建

Mesh R-CNN

從單張影像同時偵測物件並重建其 3D 網格,以端到端架構結合 2D 偵測與 3D 形狀推理。

閱讀批注
領域適應

Transferable Normalization: Towards Improving Transferability of Deep Neural Networks

以可遷移正規化改善深度神經網路的遷移能力,透過自適應特徵正規化縮小領域差異。

閱讀批注
神經架構搜尋

Exploring Randomly Wired Neural Networks for Image Recognition

探索隨機連線的神經網路架構用於影像辨識,以圖生成演算法取代手工設計的網路拓撲。

閱讀批注
物件偵測

Cascade R-CNN: Multi-Stage Object Detection

以級聯多階段架構逐步提升 IoU 閾值進行物件偵測,在高品質偵測上顯著超越單階段方法。

閱讀批注
HONORABLE MENTION
計算攝影

Single-Photon 3D Imaging with Deep Sensor Fusion

以深度感測器融合實現單光子 3D 成像,在極低光條件下重建高品質 3D 場景。

閱讀批注
HONORABLE MENTION
場景理解

Putting Humans in a Scene: Learning Affordance in 3D Indoor Environments

學習 3D 室內環境的功能可供性,理解人與場景的互動關係以合理地在場景中放置人體。

閱讀批注

12 篇代表性論文 · 投稿 2,143 / 收錄 621 / 接收率 28.9%

BEST PAPER
實例分割

Mask R-CNN

在 Faster R-CNN 基礎上加入遮罩分支,以簡潔優雅的架構同時實現物件偵測與實例分割。

閱讀批注
BEST STUDENT PAPER
物件偵測

Focal Loss for Dense Object Detection

RetinaNet 提出焦點損失解決類別不平衡問題,讓單階段偵測器首次超越雙階段方法。

閱讀批注
HONORABLE MENTION
第一人稱視覺

First-Person Activity Forecasting with Online Inverse Reinforcement Learning

以線上逆強化學習預測第一人稱視角的未來活動,從自我中心影片中推理行為意圖。

閱讀批注
影像轉譯

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

CycleGAN 以循環一致性損失實現不配對影像轉譯,無需成對訓練資料即可在不同領域間轉換風格。

閱讀批注
可解釋性

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Class Activation Mapping

以梯度加權類別啟動映射產生視覺解釋,揭示深度網路在分類決策時關注的影像區域。

閱讀批注
模型壓縮

Channel Pruning for Accelerating Very Deep Neural Networks

以通道剪枝加速極深神經網路,在最小精度損失下大幅減少計算量與模型大小。

閱讀批注
領域適應

Open Set Domain Adaptation

開放集領域適應,在目標領域包含未知類別的情境下進行知識遷移,同時辨識已知與拒絕未知。

閱讀批注
幾何視覺

Globally-Optimal Inlier Set Maximisation for Simultaneous Camera Pose and Feature Correspondence

以全域最優化同時求解相機姿態與特徵對應的內點集最大化問題,提升多視角幾何的穩健性。

閱讀批注
VQA

Structured Attentions for Visual Question Answering

以結構化注意力機制進行視覺問答,建模影像區域間的結構關係以更好地理解問題語義。

閱讀批注
影像修復

Generative Image Inpainting with Contextual Attention

以上下文注意力機制進行生成式影像修復,從遠處區域借用特徵填補缺失內容。

閱讀批注
3D 形狀補全

Shape Completion using 3D-Encoder-Predictor CNNs and Shape Synthesis

以 3D 編碼器-預測器摺積網路進行形狀補全,從部分觀測重建完整的 3D 形狀。

閱讀批注
語義分割

Segmentation of Everything: Towards Class-Agnostic Semantic Segmentation

邁向類別無關的語義分割,學習分割所有物件而非僅限於預定義類別。

閱讀批注

12 篇代表性論文 · 投稿 1,698 / 收錄 525 / 接收率 30.9%

BEST PAPER
深度學習

Deep Neural Decision Forests

將深度神經網路與決策森林結合,以端到端可微分架構同時學習表示與分類器。

閱讀批注
HONORABLE MENTION
邊緣偵測

Holistically-Nested Edge Detection

HED 以多尺度巢狀架構同時學習不同層級的邊緣特徵,實現端到端的整體性邊緣偵測。

閱讀批注
物件偵測

Fast R-CNN

以 RoI 池化層統一特徵提取與分類訓練,大幅加速 R-CNN 系列的訓練與推論速度。

閱讀批注
網路架構

Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

深入研究整流器並提出 PReLU 與 Kaiming 初始化,首次在 ImageNet 分類上超越人類水準。

閱讀批注
光流估計

FlowNet: Learning Optical Flow with Convolutional Networks

首個以摺積神經網路端到端學習光流的方法,開創了深度學習在光流估計領域的先河。

閱讀批注
影片理解

Learning Spatiotemporal Features with 3D Convolutional Networks

C3D 以 3D 摺積學習時空特徵,為影片理解提供通用且高效的特徵表示。

閱讀批注
語義分割

Conditional Random Fields as Recurrent Neural Networks

將條件隨機場建模為遞迴神經網路層,實現端到端可微分的語義分割精煉。

閱讀批注
語義分割

Learning Deconvolution Network for Semantic Segmentation

以反摺積網路學習從粗到細的語義分割,透過反池化與反摺積逐步恢復空間解析度。

閱讀批注
自監督學習

Unsupervised Visual Representation Learning by Context Prediction

以預測影像區塊間的空間位置關係作為前置任務,學習無監督的視覺表示。

閱讀批注
可解釋性

Understanding Deep Image Representations by Inverting Them

透過反轉深度影像表示來理解神經網路學到的特徵,可視化各層的資訊編碼內容。

閱讀批注
影片理解

Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors

以軌跡池化深度摺積描述子進行動作辨識,結合手工軌跡特徵與深度學習表示。

閱讀批注
光流預測

EpicFlow: Edge-Preserving Interpolation of Correspondences for Optical Flow

以保邊插值從稀疏對應估計密集光流,利用邊緣資訊引導插值保持物件邊界清晰。

閱讀批注

12 篇代表性論文 · 投稿 1,629 / 收錄 454 / 接收率 27.9%

BEST PAPER
場景理解

From Large Scale Image Categorization to Entry-Level Categories

從大規模影像分類探索入門級類別概念,研究人類認知中最自然的物件命名層級。

閱讀批注
HONORABLE MENTION
最佳化

Efficient Optimization for Average Precision: SVM, Multi-label, and Multi-class

針對平均精度的高效最佳化方法,以資料下降法加速 SVM 在多標籤與多類別場景的訓練。

閱讀批注
HONORABLE MENTION
場景流

Object Scene Flow for Autonomous Vehicles

針對自動駕駛場景的物件場景流估計,聯合推理 3D 運動與場景結構。

閱讀批注
動作辨識

Action Recognition with Improved Trajectories

以改進的密集軌跡特徵進行動作辨識,透過相機運動補償提升軌跡品質與辨識準確度。

閱讀批注
邊緣偵測

Structured Forests for Fast Edge Detection

以結構化隨機森林進行快速邊緣偵測,將結構化輸出預測應用於高效的輪廓偵測。

閱讀批注
物件偵測

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

以摺積網路整合辨識、定位與偵測,展示多尺度滑動視窗方法在多任務上的有效性。

閱讀批注
顯著性

Boolean Map Based Saliency

以布林圖為基礎的顯著性偵測方法,透過二值化注意力圖的統計分析產生顯著性預測。

閱讀批注
RGB-D 理解

Perceptual Organization and Recognition of Indoor Scenes from RGB-D Images

結合 RGB 與深度資訊進行室內場景的感知組織與辨識,以結構化預測理解房間佈局。

閱讀批注
影像分割

Absorbing Markov Chain Models for Image Segmentation

以吸收馬可夫鏈模型進行影像分割,利用隨機遊走的吸收機率自然地分離前景與背景。

閱讀批注
語義分割

Semantic Segmentation using Fisher Vectors

以費雪向量進行語義分割,將局部特徵的分布統計編碼為高維描述子用於像素級分類。

閱讀批注
文字偵測

Photo OCR: Reading Text in Uncontrolled Conditions

在非受控環境中的照片文字辨識,以多階段流程處理自然場景中的文字偵測與辨識。

閱讀批注
多目標追蹤

Multi-Target Tracking by Continuous Energy Minimization

以連續能量最小化進行多目標追蹤,將離散的資料關聯問題轉化為連續最佳化問題。

閱讀批注

ECCV 論文精選

European Conference on Computer Vision · 2014-2024

6
收錄屆次
72
精選論文
7+
研究領域
歷年投稿與收錄篇數
歷年錄取率

12 篇代表性論文 · 投稿 8,585 / 收錄 2,395 / 接收率 27.9%

BEST PAPER
計算攝影

Minimalist Vision with Freeform Pixels

以自由形式像素實現極簡視覺,突破傳統矩形像素網格限制,用最少資訊量捕捉場景關鍵視覺特徵。

閱讀批注
HONORABLE MENTION
3D 渲染

Rasterized Edge Gradients: Handling Discontinuities Differentiably

提出可微分的光柵化邊緣梯度方法,優雅處理渲染過程中的不連續性問題。

閱讀批注
HONORABLE MENTION
擴散模型

Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models

透過概念算術運算繞過擴散模型中的概念抑制機制,揭示安全機制的弱點。

閱讀批注
擴散模型

Adversarial Diffusion Distillation

以對抗式訓練蒸餾擴散模型,實現少步驟高品質影像生成。

閱讀批注
擴散模型

Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

以 LoRA 適配器實現擴散模型中概念的精準滑桿式控制。

閱讀批注
物件偵測

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

結合 DINO 與定位預訓練實現開放集物件偵測。

閱讀批注
3D 生成

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

以大規模多視角高斯模型實現高解析度 3D 內容創作。

閱讀批注
基礎模型

Sapiens: Foundation for Human Vision Models

建立人體視覺基礎模型,統一處理姿態、深度、分割等人體相關任務。

閱讀批注
光流估測

SEA-RAFT: Simple, Efficient, Accurate RAFT for Optical Flow

改進 RAFT 光流估測架構,在簡潔性、效率和準確度間取得平衡。

閱讀批注
擴散模型

SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers

以可擴展內插 Transformer 探索流與擴散生成模型。

閱讀批注
影片理解

VideoMamba: State Space Model for Efficient Video Understanding

以狀態空間模型實現高效影片理解,以線性複雜度處理長序列。

閱讀批注
3D 重建

DUSt3R: Geometric 3D Vision Made Easy

將幾何 3D 視覺簡化為端到端學習問題,無需相機參數即可重建 3D 場景。

閱讀批注

12 篇代表性論文 · 投稿 5,167 / 收錄 1,645 / 接收率 31.8%

BEST PAPER
最佳化

On the Versatile Uses of Partial Distance Correlation in Deep Learning

探索偏距離相關性在深度學習中的多元應用,提供新的正則化與分析工具。

閱讀批注
HONORABLE MENTION
3D 重建

Level Set Theory for Neural Implicit Evolution under Explicit Flows

以水平集理論驅動神經隱式表面在顯式流場下的演化。

閱讀批注
HONORABLE MENTION
3D 人體

Pose-NDF: Modelling Human Pose Manifolds with Neural Distance Fields

以神經距離場建模人體姿態流形,實現連續姿態空間的高效表示。

閱讀批注
自動駕駛

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

以時空 Transformer 從多相機影像學習鳥瞰圖表示。

閱讀批注
神經輻射場

TensoRF: Tensorial Radiance Fields

以張量分解表示輻射場,大幅加速 NeRF 訓練與渲染。

閱讀批注
網路架構

MaxViT: Multi-Axis Vision Transformer

多軸視覺 Transformer,結合區域與全域注意力機制。

閱讀批注
網路架構

DaViT: Dual Attention Vision Transformers

雙注意力視覺 Transformer,融合空間與通道注意力。

閱讀批注
場景理解

Panoptic Scene Graph Generation

全景場景圖生成,建立像素級場景關係圖。

閱讀批注
3D 物件偵測

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

以位置嵌入變換實現多視角 3D 物件偵測。

閱讀批注
點雲分割

2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds

以 2D 先驗資訊輔助光達點雲語義分割。

閱讀批注
影像編輯

AnyDoor: Zero-shot Object-level Image Customization

零樣本物件級影像客製化,將任意物件無縫植入目標場景。

閱讀批注
影像生成

MaskGIT: Masked Generative Image Transformer

以遮罩生成 Transformer 實現高效影像生成。

閱讀批注

12 篇代表性論文 · 投稿 5,025 / 收錄 1,361 / 接收率 27.1%

BEST PAPER
光流估測

RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

以遞迴全配對場變換革新光流估測,成為後續光流方法的基準架構。

閱讀批注
HONORABLE MENTION
神經輻射場

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

以神經輻射場表示場景,實現照片級真實感的新視角合成。

閱讀批注
HONORABLE MENTION
自動駕駛

Towards Streaming Perception

邁向串流感知,重新定義自動駕駛中即時感知的評估標準。

閱讀批注
物件偵測

DETR: End-to-End Object Detection with Transformers

以 Transformer 實現端到端物件偵測,消除非最大值抑制等手工後處理。

閱讀批注
實例分割

SOLO: Segmenting Objects by Locations

以位置為基礎的實例分割,簡化分割管線。

閱讀批注
語義分割

Object-Contextual Representations for Semantic Segmentation

以物件上下文表示提升語義分割精度。

閱讀批注
GAN

Rewriting a Deep Generative Model

直接改寫深度生成模型的內部規則,實現精確的語義編輯。

閱讀批注
3D 點雲

PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding

以對比學習進行 3D 點雲的無監督預訓練。

閱讀批注
網路架構

Rethinking Bottleneck Structure for Efficient Mobile Network Design

重新思考瓶頸結構以設計高效行動網路。

閱讀批注
影片理解

AR-Net: Adaptive Frame Resolution for Efficient Action Recognition

以自適應幀解析度實現高效動作辨識。

閱讀批注
自監督學習

Knowledge Distillation Meets Self-Supervision

知識蒸餾結合自監督學習,提升模型壓縮效果。

閱讀批注
影像修復

Unpaired Learning of Deep Image Denoising

以非配對學習方式訓練深度影像去噪模型。

閱讀批注

12 篇代表性論文 · 投稿 2,439 / 收錄 776 / 接收率 31.8%

BEST PAPER
3D 物件偵測

Implicit 3D Orientation Learning for 6D Object Detection

以隱式 3D 方向學習實現 6D 物件偵測,突破傳統離散姿態分類限制。

閱讀批注
HONORABLE MENTION
正規化

Group Normalization

群組正規化打破批次正規化對批次大小的依賴,在小批次場景表現穩健。

閱讀批注
HONORABLE MENTION
GAN

GANimation: Anatomically-aware Facial Animation from a Single Image

以解剖學感知的 GAN 從單張影像生成臉部動畫。

閱讀批注
注意力機制

CBAM: Convolutional Block Attention Module

摺積區塊注意力模組,結合通道與空間注意力機制。

閱讀批注
物件偵測

CornerNet: Detecting Objects as Paired Keypoints

以成對角點偵測物件,開創無錨框偵測方法。

閱讀批注
語義分割

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

DeepLabv3+ 以空洞可分離摺積的編碼器-解碼器架構實現語義分割。

閱讀批注
姿態估計

Simple Baselines for Human Pose Estimation and Tracking

以簡潔基線方法實現人體姿態估測與追蹤,證明簡單架構的有效性。

閱讀批注
高效架構

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

提出高效 CNN 架構設計的實用準則,以直接速度指標取代 FLOPs。

閱讀批注
實例分割

PersonLab: Person Pose Estimation and Instance Segmentation

以由下而上的部件式幾何嵌入實現人體姿態估測與實例分割。

閱讀批注
自監督學習

Exploring the Limits of Weakly Supervised Pretraining

探索弱監督預訓練的極限,以大規模雜訊標籤資料提升視覺表示。

閱讀批注
語義分割

ESPNet: Efficient Spatial Pyramid of Dilated Convolutions

以高效空間金字塔擴張摺積實現即時語義分割。

閱讀批注
基礎模型

Rethinking ImageNet Pre-training

重新思考 ImageNet 預訓練的必要性,證明從頭訓練亦可達到相近效果。

閱讀批注

12 篇代表性論文 · 投稿 1,561 / 收錄 415 / 接收率 26.6%

BEST PAPER
3D 重建

Real-Time 3D Reconstruction and 6-DoF Tracking with an Event Camera

以事件相機實現即時 3D 重建與六自由度追蹤。

閱讀批注
HONORABLE MENTION
影像修復

The Fast Bilateral Solver

快速雙邊求解器,高效解決大規模最佳化問題。

閱讀批注
物件偵測

SSD: Single Shot MultiBox Detector

單次多框偵測器,在速度與精度間取得平衡的即時物件偵測方法。

閱讀批注
網路架構

Identity Mappings in Deep Residual Networks

深度殘差網路中的恆等映射,改進殘差學習的梯度流動。

閱讀批注
風格轉換

Perceptual Losses for Real-Time Style Transfer and Super-Resolution

以感知損失實現即時風格轉換與超解析度。

閱讀批注
影像生成

Colorful Image Colorization

自動影像上色,以深度學習為灰階影像賦予鮮豔色彩。

閱讀批注
物件追蹤

Fully-Convolutional Siamese Networks for Object Tracking

全摺積孿生網路實現即時物件追蹤。

閱讀批注
姿態估計

Stacked Hourglass Networks for Human Pose Estimation

堆疊沙漏網路實現多尺度人體姿態估測。

閱讀批注
物件追蹤

Learning to Track at 100 FPS with Deep Regression Networks

以深度迴歸網路實現每秒 100 幀的高速追蹤。

閱讀批注
網路架構

Wide Residual Networks

寬殘差網路,證明增加網路寬度比深度更有效率。

閱讀批注
語義分割

ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

為即時語義分割設計的高效深度神經網路架構。

閱讀批注
影片理解

Temporal Segment Networks

時序片段網路,以稀疏取樣策略實現高效影片動作辨識。

閱讀批注

12 篇代表性論文 · 投稿 1,555 / 收錄 363 / 接收率 23.3%

BEST PAPER
影像分類

Large-Scale Object Classification using Label Relation Graphs

以標籤關係圖進行大規模物件分類,利用語義層次結構提升分類準確度。

閱讀批注
BEST PAPER
場景理解

Scene Chronology

場景年代學,從歷史照片推斷建築與場景的時間演變。

閱讀批注
物件偵測

Microsoft COCO: Common Objects in Context

COCO 資料集:情境中的常見物件,成為物件偵測與分割的標準評測基準。

閱讀批注
網路架構

Spatial Pyramid Pooling in Deep Convolutional Networks

空間金字塔池化使 CNN 接受任意大小輸入,加速物件偵測。

閱讀批注
網路架構

Visualizing and Understanding Convolutional Networks

視覺化與理解摺積網路,以反摺積技術揭示 CNN 學到的特徵。

閱讀批注
影像修復

Image Super-Resolution Using Deep Convolutional Networks

以深度摺積網路實現影像超解析度,開創深度學習超解析方法。

閱讀批注
3D 重建

LSD-SLAM: Large-Scale Direct Monocular SLAM

大規模直接單目 SLAM,不依賴特徵點的即時 3D 建圖與定位。

閱讀批注
基礎模型

CNN Features Off-the-Shelf: An Astounding Baseline for Recognition

預訓練 CNN 特徵的強大遷移性,作為各類辨識任務的驚人基線。

閱讀批注
物件偵測

Edge Boxes: Locating Object Proposals from Edges

以邊緣資訊快速生成物件候選框。

閱讀批注
語義分割

Simultaneous Detection and Segmentation

同時偵測與分割,統一物件偵測與語義分割任務。

閱讀批注
物件偵測

Deformable Part Models are Convolutional Neural Networks

證明可形變部件模型等價於摺積神經網路。

閱讀批注
動作辨識

Action Recognition with Stacked Fisher Vectors

以堆疊 Fisher 向量進行動作辨識。

閱讀批注