Abstract — 摘要
Non-blind deblurring — recovering a sharp image given a known blur kernel — is a classical problem in image processing. Traditional approaches rely on generative models with hand-crafted image priors (e.g., total variation, hyper-Laplacian). While effective, these methods require careful parameter tuning and iterative optimization, and their priors may not capture the true statistics of natural images. We propose a discriminative approach to non-blind deblurring that learns the regularization directly from training data using a cascade of shrinkage fields (CSF). Our model achieves state-of-the-art restoration quality with orders of magnitude faster runtime compared to iterative methods.
非盲去模糊——在已知模糊核的前提下復原清晰影像——是影像處理中的經典問題。傳統方法依賴具有手工設計影像先驗(如全變分、超拉普拉斯分布)的生成式模型。這些方法雖然有效,但需要仔細的參數調校與迭代最佳化,且其先驗可能無法捕捉自然影像的真實統計特性。我們提出一種判別式的非盲去模糊方法,使用串級收縮場(CSF)直接從訓練資料中學習正則化。我們的模型在達到最先進復原品質的同時,比迭代方法快了數個數量級。
段落功能
全文總覽——從經典問題出發,指出生成式方法的侷限,引出判別式替代方案。
邏輯角色
摘要建立「傳統 vs 創新」的二元框架:生成式(慢但可靠)vs 判別式(快且可學習),奠定全文的論證方向。
論證技巧 / 潛在漏洞
以「手工設計」vs「從資料學習」的對比強化判別式方法的現代感。但判別式方法對訓練資料的依賴性未被提及——若訓練集與測試場景差異大,泛化能力可能不如手工先驗。
1. Introduction — 緒論
Image deblurring is typically decomposed into two stages: blind deblurring (estimating the blur kernel) and non-blind deblurring (recovering the sharp image given the kernel). While much recent attention has focused on the blind stage, the non-blind stage remains crucial — even a perfectly estimated kernel yields poor results if the subsequent restoration is suboptimal. Current state-of-the-art non-blind methods, such as those based on variational Bayes or ADMM, require many iterations of expensive convolution operations.
影像去模糊通常分為兩個階段:盲去模糊(估計模糊核)與非盲去模糊(在已知模糊核的前提下復原清晰影像)。雖然近年來盲階段受到較多關注,但非盲階段仍然至關重要——即使模糊核估計完美,若後續復原不理想,結果仍會不佳。目前最先進的非盲方法,如基於變分貝氏或交替方向乘子法(ADMM)的方法,需要多次昂貴的摺積運算迭代。
段落功能
問題定位——闡明非盲去模糊的重要性及現有方法的效率瓶頸。
邏輯角色
挑戰「盲階段更重要」的既有觀念,重新定位非盲階段的價值,為本文的研究重心提供正當性。
論證技巧 / 潛在漏洞
以「完美核仍可能得到差結果」強調非盲階段的不可或缺性,論述有效。但多數實際場景中核估計本身的誤差可能遠大於非盲復原的品質差異。
We challenge the dominant generative modeling paradigm for non-blind deblurring and instead adopt a discriminative learning framework. The key idea is to unroll a fixed number of optimization steps and learn all parameters end-to-end from training pairs of blurry and sharp images. This converts the iterative inference problem into a feed-forward prediction problem, enabling real-time processing at test time. Our approach bridges classical energy minimization and modern machine learning.
我們挑戰了非盲去模糊中主導的生成式建模範式,改為採用判別式學習框架。核心思想是將固定次數的最佳化步驟展開,並從模糊與清晰影像的訓練配對中端到端學習所有參數。這將迭代推論問題轉化為前饋預測問題,使測試時能達到即時處理。我們的方法架起了古典能量最小化與現代機器學習之間的橋梁。
段落功能
核心創新概述——提出「展開最佳化 + 端到端學習」的策略。
邏輯角色
從「現有方法慢」到「將迭代轉為前饋」的關鍵轉折。此設計理念後來成為深度展開(deep unrolling)領域的重要先驅。
論證技巧 / 潛在漏洞
「橋接古典與現代」的定位極具學術號召力。但固定展開步數意味著模型容量受限——對於嚴重模糊可能需要更多步驟,而測試時無法動態調整。
2. Related Work — 相關工作
Classical non-blind deblurring methods frame the problem as MAP estimation with an image prior. Popular priors include total variation (TV), which promotes piecewise-smooth solutions, and hyper-Laplacian priors on image gradients. Zoran and Weiss proposed Expected Patch Log Likelihood (EPLL), modeling patches with a Gaussian mixture model. These generative approaches achieve high quality but are slow due to iterative optimization — typically requiring 50-200 iterations of conjugate gradient or similar solvers.
經典的非盲去模糊方法將問題框架化為具有影像先驗的最大後驗(MAP)估計。常用的先驗包括促進分段平滑解的全變分(TV),以及影像梯度上的超拉普拉斯先驗。Zoran 和 Weiss 提出了期望區塊對數似然度(EPLL),以高斯混合模型來建模影像區塊。這些生成式方法能達到高品質,但因迭代最佳化而速度緩慢——通常需要共軛梯度或類似求解器的 50 至 200 次迭代。
段落功能
文獻回顧——概述生成式方法的先驗選擇及其效率問題。
邏輯角色
系統梳理「先驗設計」的演進脈絡,從 TV 到超拉普拉斯到 EPLL,展示先驗越來越複雜,但速度問題始終未解。
論證技巧 / 潛在漏洞
以「50-200 次迭代」的具體數字量化效率問題,增強說服力。但未提及某些快速近似方法(如 FFT 域解法),可能低估了生成式方法的速度潛力。
An alternative line of work explores learning-based approaches. Schuler et al. train a multi-layer perceptron for deblurring, while Burger et al. show that a large MLP can match BM3D for denoising. However, these "black-box" neural networks lack interpretability and do not incorporate domain knowledge about the blur formation process. Our work occupies a middle ground: we use a model architecture inspired by classical optimization but with parameters learned discriminatively.
另一條研究路線探索基於學習的方法。Schuler 等人訓練多層感知器用於去模糊,而 Burger 等人展示大型 MLP 在去噪上可達到 BM3D 的水準。然而,這些「黑箱」神經網路缺乏可解釋性,且未納入關於模糊形成過程的領域知識。本研究佔據了一個中間位置:我們使用受古典最佳化啟發的模型架構,但參數以判別式方式學習。
段落功能
差異化定位——將本文與純學習方法區分開來。
邏輯角色
在「生成式(可解釋但慢)」與「黑箱學習(快但不可解釋)」之間開闢第三條路線,凸顯本文方法的獨特價值。
論證技巧 / 潛在漏洞
「中間位置」的定位策略使本文同時吸引兩個社群的讀者。但「可解釋性」的優勢在實際應用中是否真正重要,取決於使用場景。
3. Method — 方法
3.1 Cascade of Shrinkage Fields
Our model, the Cascade of Shrinkage Fields (CSF), consists of a fixed number of stages, each performing one half-quadratic splitting step. At each stage, the model applies learned convolution filters to extract features, followed by pointwise shrinkage functions that act as learned proximal operators. The output of each stage is fed into the next, mimicking the unrolled iterations of a classical optimization algorithm. Crucially, the filters and shrinkage functions are different at each stage, allowing the model to adapt its regularization strategy as the estimate improves.
我們的模型——串級收縮場(CSF)——由固定數量的階段組成,每個階段執行一步半二次分裂。在每個階段中,模型先套用學習得到的摺積濾波器來提取特徵,再經由逐點收縮函數作為學習的近端運算子。每個階段的輸出被饋入下一階段,模擬古典最佳化演算法的展開迭代。關鍵在於每個階段的濾波器和收縮函數各不相同,使模型能隨著估計的改善而調適其正則化策略。
段落功能
核心架構描述——定義 CSF 的階段式結構與各組件的功能。
邏輯角色
這是方法的技術核心:將最佳化展開為具有可學習參數的前饋架構,每個階段對應一次迭代。
論證技巧 / 潛在漏洞
「每階段不同的參數」是相對於 ISTA 等方法(共享參數)的重要改進,允許更靈活的學習。但這也意味著參數量隨階段數線性增長,可能在資料不足時過擬合。
3.2 Discriminative Training — 判別式訓練
All parameters — including filter weights, shrinkage function parameters, and data fidelity weights — are trained jointly by minimizing the mean squared error between the model's output and the ground-truth sharp image. The training set consists of pairs of synthetically blurred and clean images with diverse blur kernels. We use gradient-based optimization (L-BFGS) to learn the parameters, with gradients computed via backpropagation through the entire unrolled cascade. This end-to-end discriminative training ensures that all components are optimized for the final reconstruction quality, rather than each being tuned independently.
所有參數——包括濾波器權重、收縮函數參數與資料保真度權重——皆透過最小化模型輸出與真實清晰影像之間的均方誤差來聯合訓練。訓練集由使用多樣化模糊核合成的模糊與乾淨影像配對組成。我們使用基於梯度的最佳化(L-BFGS)來學習參數,梯度透過對整個展開串級的反向傳播計算。此端到端的判別式訓練確保所有組件皆為最終的重建品質而最佳化,而非各自獨立調校。
段落功能
訓練策略——說明如何端到端學習所有參數。
邏輯角色
這是「判別式」方法名稱的核心體現:不再手動設計先驗,而是從資料中學習最佳正則化。
論證技巧 / 潛在漏洞
端到端訓練的效益闡述清晰。但合成模糊資料與真實模糊之間的域差距可能導致泛化問題——真實模糊往往包含非均勻性和雜訊,這在合成資料中可能未被充分捕捉。
A key advantage of our formulation is that the learned shrinkage functions are non-parametric — they are represented as lookup tables (radial basis function interpolation) rather than fixed functional forms. This allows the model to discover regularization strategies that may have no closed-form expression but are empirically optimal for natural image statistics. In practice, the learned shrinkage functions qualitatively resemble soft-thresholding at early stages but become more nuanced at later stages.
本公式化的一項關鍵優勢在於學習得到的收縮函數是非參數式的——它們以查找表(徑向基函數插值)表示,而非固定的函數形式。這允許模型發現可能不具封閉形式表達但在經驗上對自然影像統計最佳的正則化策略。在實作中,學習到的收縮函數在早期階段定性上類似軟門檻,但在後期階段變得更為細緻。
段落功能
技術亮點——強調非參數收縮函數的表達能力。
邏輯角色
深化「判別式優於生成式」的論點:非參數函數可表達任意正則化,超越了固定先驗的表達能力。
論證技巧 / 潛在漏洞
「早期類似軟門檻,後期更細緻」的觀察提供了有價值的直覺。但非參數表示也帶來記憶體成本,且在極端值處的外推行為可能不穩定。
4. Experiments — 實驗
We evaluate on standard benchmarks including the dataset of Levin et al. (4 images, 8 kernels, 32 test cases) and Sun et al.'s dataset with larger, more realistic kernels. Our 5-stage CSF achieves PSNR comparable to or exceeding EPLL and other state-of-the-art methods across all kernel sizes. In terms of speed, the CSF processes a 255x255 image in approximately 0.6 seconds, compared to 30-120 seconds for iterative methods. This represents a 50-200x speedup with no loss in quality.
我們在標準基準上進行評估,包括 Levin 等人的資料集(4 張影像、8 個核、32 個測試案例)及 Sun 等人的具有更大且更真實核的資料集。我們的 5 階段 CSF 在所有核大小上達到與 EPLL 及其他最先進方法相當或更優的 PSNR。在速度方面,CSF 處理一張 255x255 影像約需 0.6 秒,而迭代方法需 30 至 120 秒。這代表了 50 至 200 倍的加速且無品質損失。
段落功能
定量驗證——以基準資料集上的 PSNR 和速度數據支撐核心主張。
邏輯角色
用數據兌現摘要中「最先進品質 + 數量級加速」的承諾。0.6 秒 vs 120 秒的對比極具說服力。
論證技巧 / 潛在漏洞
基準資料集的規模偏小(32 個測試案例),且影像解析度有限。在高解析度真實場景下的表現尚待驗證。
We also conduct ablation studies to validate design choices. Increasing the number of stages from 1 to 5 steadily improves PSNR, with diminishing returns beyond 5 stages. Using stage-specific (non-shared) parameters outperforms shared parameters by 0.5-1.0 dB. The learned non-parametric shrinkage functions outperform fixed soft-thresholding by 0.8 dB on average. These results confirm that each component of our design contributes meaningfully to the final performance.
我們同時進行了消融研究以驗證設計選擇。將階段數從 1 增加到 5,PSNR 穩定提升,超過 5 階段後收益遞減。使用階段專屬(非共享)參數比共享參數高出 0.5 至 1.0 dB。學習的非參數收縮函數平均比固定軟門檻高出 0.8 dB。這些結果確認了我們設計中的每個組件都對最終效能有實質貢獻。
段落功能
消融驗證——逐一確認各設計組件的必要性。
邏輯角色
以系統性消融確立因果關係,避免讀者質疑「效能提升來自何處」。
論證技巧 / 潛在漏洞
消融設計全面,dB 改進數值具體。但 0.5-1.0 dB 的差異在主觀視覺品質上可能不易察覺,需輔以視覺範例。
5. Conclusion — 結論
We have introduced a discriminative approach to non-blind image deblurring based on cascades of shrinkage fields. By unrolling a classical optimization algorithm and learning all parameters from data, our method combines the interpretability of model-based approaches with the efficiency and adaptability of discriminative learning. The resulting model achieves state-of-the-art quality with dramatically reduced computation time. We believe this paradigm of "learning to optimize" is broadly applicable to other inverse problems in imaging.
我們提出了一種基於串級收縮場的判別式非盲影像去模糊方法。透過展開古典最佳化演算法並從資料中學習所有參數,本方法結合了基於模型方法的可解釋性與判別式學習的效率及適應性。所得模型在大幅縮減運算時間的同時達到最先進的品質。我們相信此「學習如何最佳化」的範式可廣泛應用於其他影像逆問題。
段落功能
總結與展望——重申貢獻並指出「學習最佳化」的廣泛適用性。
邏輯角色
結論將具體貢獻提升至方法論層次:不僅是去模糊的新方法,更是一種新的解題範式。
論證技巧 / 潛在漏洞
「學習如何最佳化」的願景極具前瞻性——事實上後來的 ADMM-Net、LISTA 等工作正是沿此方向發展。但本文未討論判別式方法在核估計誤差存在時的穩健性問題。
論證結構總覽
問題
生成式去模糊
需大量迭代,速度慢
生成式去模糊
需大量迭代,速度慢
→
論點
判別式學習
可取代手工先驗
判別式學習
可取代手工先驗
→
證據
PSNR 匹敵最先進
速度快 50-200 倍
PSNR 匹敵最先進
速度快 50-200 倍
→
反駁
兼具可解釋性
非純黑箱方法
兼具可解釋性
非純黑箱方法
→
結論
「學習如何最佳化」
適用於更多逆問題
「學習如何最佳化」
適用於更多逆問題
作者核心主張(一句話)
透過將古典最佳化步驟展開為可學習的前饋架構(串級收縮場),判別式非盲去模糊能在維持最先進品質的同時實現即時處理速度。
論證最強處
架構設計的優雅性:CSF 的每個階段都有明確的數學對應(半二次分裂步驟),使學習架構保有可解釋性。非參數收縮函數的設計允許模型發現超越已知先驗的正則化策略,同時消融研究嚴謹地量化了每個組件的貢獻。
論證最弱處
泛化性的不確定性:模型在合成資料上訓練,但真實場景的模糊通常伴隨非均勻性、飽和效應及感測器雜訊。基準資料集規模小(32 個測試案例),不足以全面評估方法在多樣化條件下的穩健性。固定階段數的限制也意味著對極嚴重模糊的處理能力可能不足。