摘要 1. 緒論 2. 相關工作 3. 方法 3.1 布林映射 3.2 注意力計算 4. 實驗 5. 結論 論證總覽

Abstract — 摘要

We propose a simple yet powerful Boolean Map based Saliency (BMS) model for computing saliency maps that highlight visually salient regions in images. The method is inspired by the Gestalt principle of figure-ground segregation: it generates a set of Boolean maps by randomly thresholding the feature maps of an input image, and then computes the saliency map by analyzing the topological structure of these Boolean maps. Unlike most existing bottom-up saliency models that rely on center-surround contrast computation, our approach exploits global properties of the image to detect salient regions. Experimental results on five eye tracking benchmark datasets demonstrate that the proposed method consistently outperforms ten state-of-the-art saliency models. In addition, we show that BMS also performs well in salient object detection tasks.
我們提出一個簡潔卻強大的布林映射顯著性(BMS)模型,用以計算能凸顯影像中視覺顯著區域的顯著性圖。該方法受到完形心理學圖地分離原則的啟發:透過對輸入影像的特徵圖進行隨機閾值化以產生一組布林映射,接著藉由分析這些布林映射的拓撲結構來計算顯著性圖。有別於多數依賴中心-環繞對比計算的由下而上顯著性模型,我們的方法利用影像的全域屬性來偵測顯著區域。在五個眼動追蹤基準資料集上的實驗結果證明,所提方法穩定地優於十個最先進的顯著性模型。此外,我們亦展示 BMS 在顯著物件偵測任務上表現出色。
段落功能 全文總覽——以遞進方式從「顯著性偵測」到「完形心理學動機」再到「布林映射方法」,預告實驗成果。
邏輯角色 摘要承擔「問題界定與解決方案預告」的雙重功能:先指出現有方法依賴局部對比的侷限,再以完形心理學的全域觀點作為理論基礎提出 BMS。
論證技巧 / 潛在漏洞 以「簡潔卻強大」開頭,預先建立讀者對方法簡潔性的期待。將方法根植於完形心理學原則增加了理論深度,但「隨機閾值化」的隨機性是否會導致結果不穩定,需在方法章節中進一步釐清。

1. Introduction — 緒論

Visual saliency detection has been a fundamental problem in computer vision and neuroscience. A saliency map is a topographic representation that highlights conspicuous regions in an image, and it plays an important role in many applications such as image retargeting, object recognition, and image quality assessment. Most existing bottom-up saliency models are based on the center-surround contrast hypothesis, which computes saliency by measuring the local contrast between a region and its surrounding context. While effective in many cases, this paradigm has inherent limitations in handling large salient objects or cluttered backgrounds.
視覺顯著性偵測一直是電腦視覺與神經科學的基礎問題。顯著性圖是一種拓撲表示法,用以凸顯影像中的醒目區域,在影像重定位、物件辨識及影像品質評估等眾多應用中扮演重要角色。大多數現有的由下而上顯著性模型建立在中心-環繞對比假說之上,透過衡量一個區域與其周圍脈絡之間的局部對比來計算顯著性。儘管在許多情況下有效,此範式在處理大型顯著物件或雜亂背景時存在固有的侷限性。
段落功能 建立研究場域——定義顯著性偵測的重要性並指出現有方法的主流範式。
邏輯角色 論證鏈的起點:先肯定顯著性偵測的廣泛應用價值,再聚焦於「中心-環繞」範式的侷限,為引入全域方法鋪路。
論證技巧 / 潛在漏洞 以應用場景列舉(影像重定位、物件辨識等)建立問題的實務重要性。將現有方法統歸為「中心-環繞」範式有所簡化,忽略了如頻域方法、資訊理論方法等其他路線。
In this paper, we draw inspiration from the Gestalt principle of figure-ground segregation. According to this principle, the human visual system tends to perceive enclosed regions as figures against the surrounding ground. We operationalize this idea through Boolean maps: binary images obtained by thresholding color channels of the input. Each Boolean map partitions the image into foreground (figure) and background (ground) regions. The saliency of a region is then related to its surroundedness — how much it is enclosed by other regions. By computing the mean of the attention maps derived from all Boolean maps, we obtain a robust saliency map that captures global figure-ground structure.
本文從完形心理學的圖地分離原則中汲取靈感。根據此原則,人類視覺系統傾向於將被包圍的區域感知為相對於周圍背景的前景圖形。我們透過布林映射將此概念操作化:對輸入影像的色彩通道進行閾值化所得的二值影像。每幅布林映射將影像劃分為前景(圖形)與背景(地面)區域。區域的顯著性與其「被包圍程度」相關——即它被其他區域包圍的程度。透過計算所有布林映射衍生之注意力圖的平均值,我們獲得一幅能捕捉全域圖地結構的穩健顯著性圖。
段落功能 提出核心思想——將完形心理學原則轉化為計算方法。
邏輯角色 承接上段的問題陳述,此段扮演「轉折」角色:從「局部對比的缺陷」轉向「全域圖地分離的優勢」。「被包圍程度」的概念建立了從心理學到計算的橋梁。
論證技巧 / 潛在漏洞 以認知心理學原則作為理論支撐是有力的修辭策略,為方法提供了「人類感知合理性」。但完形原則本身具有一定的模糊性,「被包圍程度」在計算上的具體定義需要嚴謹的數學形式化。
The seminal Itti-Koch model computes saliency using multi-scale center-surround differences across color, intensity, and orientation channels. Subsequent models such as GBVS (Graph-Based Visual Saliency) and AIM (Attention based on Information Maximization) improve upon this framework but remain fundamentally local in nature. Frequency domain approaches like the Spectral Residual model offer an alternative perspective by analyzing the log-spectrum of an image, yet they lack explicit connection to perceptual principles. More recent methods incorporate global context through techniques like Bayesian surprise or information-theoretic measures, but they often come with high computational costs. Our approach uniquely combines global structure analysis with computational simplicity.
開創性的 Itti-Koch 模型使用跨越色彩、亮度與方位通道的多尺度中心-環繞差異來計算顯著性。後續模型如 GBVS(基於圖的視覺顯著性)AIM(基於資訊最大化的注意力)改進了此框架,但本質上仍屬於局部方法頻域方法頻譜殘差模型透過分析影像的對數頻譜提供了替代觀點,然而缺乏與感知原則的明確連結。較近期的方法透過貝氏驚奇資訊理論度量引入全域脈絡,但往往伴隨高計算成本。我們的方法獨特地結合了全域結構分析與計算簡潔性
段落功能 文獻回顧——系統性整理顯著性偵測的三大路線及各自侷限。
邏輯角色 透過三類方法(局部對比、頻域、全域統計)的分類與批判,逐步收窄至 BMS 所佔據的獨特定位:全域性與簡潔性的交集。
論證技巧 / 潛在漏洞 分類清晰且每類均指出不同缺陷,暗示 BMS 是唯一兼具所有優點的方法。但此處的分類有些粗略——例如 GBVS 實際上已透過馬可夫鏈引入了部分全域資訊,並非純粹局部的。

3. Method — 方法

3.1 Boolean Map Generation — 布林映射生成

Given an input image, we first decompose it into a set of feature channels including the L, a, b channels in CIELAB color space. For each feature channel, we generate multiple Boolean maps by applying a series of uniformly sampled thresholds. Specifically, for a feature channel with values normalized to [0, 1], we threshold at values t_1, t_2, ..., t_N where these thresholds are evenly spaced. Each threshold produces a binary image (Boolean map) where pixels above the threshold are set to 1 (foreground) and the rest to 0 (background). This process generates a comprehensive set of figure-ground hypotheses that collectively explore different possible segmentations of the image.
給定一幅輸入影像,我們首先將其分解為一組特徵通道,包括 CIELAB 色彩空間中的 L、a、b 通道。對每個特徵通道,我們透過一系列均勻取樣的閾值生成多幅布林映射。具體而言,對於值正規化至 [0, 1] 的特徵通道,在 t_1, t_2, ..., t_N 等均勻間隔的閾值處進行閾值化。每個閾值產生一幅二值影像(布林映射),高於閾值的像素設為 1(前景),其餘設為 0(背景)。此過程生成一組完整的圖地假設集合,集體地探索影像的不同可能分割。
段落功能 方法推導第一步——定義布林映射的生成機制。
邏輯角色 此為整個方法的基礎構件。CIELAB 色彩空間的選擇具有感知均勻性的理論依據,均勻閾值確保了對色彩空間的系統性探索。
論證技巧 / 潛在漏洞 將複雜的顯著性問題簡化為一系列簡單的閾值化操作,體現了「化繁為簡」的工程哲學。但閾值的數量 N 與間距的選擇可能顯著影響結果品質,作者需說明此超參數的敏感性。

3.2 Attention Computation — 注意力計算

For each Boolean map, we compute an attention map based on the surroundedness of the foreground regions. The key insight is that a connected foreground region that is fully surrounded by background is more likely to be salient than one touching the image border. We implement this using morphological operations: specifically, we apply a flood fill operation from the image borders to identify background-connected regions, then the remaining foreground pixels constitute the "surrounded" regions. The attention value of each surrounded region is set proportional to its area. The final saliency map is obtained by averaging the attention maps across all Boolean maps and all feature channels, followed by Gaussian smoothing and post-processing normalization.
對每幅布林映射,我們基於前景區域的被包圍程度計算注意力圖。關鍵洞察在於:完全被背景包圍的連通前景區域比接觸影像邊界的區域更可能具有顯著性。我們使用形態學運算來實現此概念:具體而言,從影像邊界執行氾濫填充操作以辨識與背景相連的區域,剩餘的前景像素即構成「被包圍」區域。每個被包圍區域的注意力值與其面積成正比。最終的顯著性圖透過對所有布林映射與所有特徵通道的注意力圖取平均,再經高斯平滑及後處理正規化而獲得。
段落功能 核心演算法——將「被包圍程度」概念轉化為可計算的注意力值。
邏輯角色 此段是全文論證的支柱:氾濫填充操作是對完形心理學「封閉性」原則的精確計算實現。面積加權與跨通道平均則確保了對多重圖地假設的穩健整合。
論證技巧 / 潛在漏洞 氾濫填充是一個極其高效的操作(接近線性時間複雜度),這使得方法在保持理論深度的同時具備實用性。但假設「接觸邊界即為背景」的啟發式有可能在顯著物件位於影像邊緣時失效。

4. Experiments — 實驗

We evaluate BMS on five widely-used eye tracking benchmark datasets: MIT, Toronto, NUSEF, Kootstra, and SUN. The method is compared against ten state-of-the-art saliency models including Itti-Koch, GBVS, AIM, SUN, DVA, SIG, AWS, Murray, HouCVPR, and Judd. We use standard evaluation metrics including AUC (Area Under the ROC Curve), sAUC (shuffled AUC), and CC (Correlation Coefficient). Results show that BMS achieves the best or second-best performance across all five datasets under all three metrics. Notably, BMS achieves an average AUC of 0.933 on the MIT dataset, significantly outperforming the Itti-Koch baseline (0.879). Furthermore, we evaluate BMS on the MSRA-B salient object detection dataset, where it also demonstrates competitive performance against dedicated salient object detectors, confirming the generality of the approach.
我們在五個廣泛使用的眼動追蹤基準資料集上評估 BMS:MIT、Toronto、NUSEF、Kootstra 與 SUN。該方法與十個最先進的顯著性模型進行比較,包括 Itti-Koch、GBVS、AIM、SUN、DVA、SIG、AWS、Murray、HouCVPR 及 Judd。我們使用標準評估指標,包括 AUC(ROC 曲線下面積)、sAUC(洗牌 AUC)與 CC(相關係數)。結果顯示,BMS 在所有五個資料集、所有三個指標下均達到最佳或次佳表現。值得注意的是,BMS 在 MIT 資料集上達到 0.933 的平均 AUC,顯著優於 Itti-Koch 基線(0.879)。此外,我們在 MSRA-B 顯著物件偵測資料集上評估 BMS,亦展現出與專用顯著物件偵測器相當的競爭力,確認了該方法的通用性。
段落功能 提供全面的實驗證據——在多個基準與指標下驗證方法的有效性。
邏輯角色 此段是實證支柱,覆蓋兩個維度:(1) 眼動追蹤預測的主要任務表現;(2) 顯著物件偵測的遷移能力。五個資料集×三個指標的組合提供了統計上的穩健性。
論證技巧 / 潛在漏洞 大量的資料集與基線比較建立了強大的實證基礎。但作者未報告計算時間的詳細比較——考慮到方法強調「簡潔性」,速度對比將是重要的補充證據。此外,sAUC 作為較嚴格的指標,其結果值得特別關注。

5. Conclusion — 結論

We have presented BMS, a Boolean Map based Saliency model that detects visually salient regions by exploiting the topological structure of Boolean maps. Inspired by the Gestalt principle of figure-ground segregation, our method computes saliency based on the surroundedness of regions, offering a fundamentally different perspective from the dominant center-surround contrast paradigm. The method is straightforward to implement, computationally efficient, and achieves state-of-the-art performance across multiple benchmark datasets. We believe that the Boolean map representation provides a rich and underexplored framework for visual attention modeling, and future work could extend this approach to incorporate temporal information for video saliency detection.
我們提出了 BMS——一個基於布林映射的顯著性模型,透過利用布林映射的拓撲結構來偵測視覺顯著區域。受完形心理學圖地分離原則啟發,我們的方法基於區域的被包圍程度計算顯著性,提供了有別於主流中心-環繞對比範式的根本性不同視角。該方法實作簡單、計算高效,且在多個基準資料集上達到最先進的表現。我們相信布林映射表示法為視覺注意力建模提供了一個豐富而尚未充分探索的框架,未來的工作可將此方法擴展至納入時間資訊以進行影片顯著性偵測。
段落功能 總結全文——重申核心貢獻並展望未來方向。
邏輯角色 結論段呼應摘要的結構,從方法回到啟示:布林映射是注意力建模的新框架。影片擴展的展望為後續研究指明了方向,形成完整的論證閉環。
論證技巧 / 潛在漏洞 結論簡潔有力,三重優勢(簡單、快速、準確)的列舉極具說服力。但未充分討論方法的侷限——例如在深度學習快速發展的背景下,手工設計特徵(色彩通道閾值化)的持續競爭力存疑。影片擴展的展望略顯籠統。

論證結構總覽

問題
局部對比方法難以處理
大型顯著物件
論點
布林映射拓撲分析
捕捉全域圖地結構
證據
五個資料集穩定優於
十個最先進模型
反駁
計算簡潔高效
非高成本全域方法
結論
布林映射是注意力
建模的新框架

作者核心主張(一句話)

透過隨機閾值化產生的布林映射之拓撲分析,能以極低的計算成本實現優於中心-環繞對比範式的全域顯著性偵測。

論證最強處

理論基礎與實用性的完美結合:以完形心理學的圖地分離原則為理論根基,透過氾濫填充等簡單影像處理操作加以實現,兼具認知科學的合理性與工程上的高效性。五個資料集的全面優勢進一步鞏固了論證。

論證最弱處

邊界物件的處理假設:方法的核心假設——接觸影像邊界的區域為背景——在裁切不當的影像或顯著物件部分超出畫面時會失效。此外,基於手工色彩通道的特徵表示在面對深度學習方法時的長期競爭力尚待驗證。

Thesis 核心論點
Concept 關鍵概念
Evidence 實證證據
Rebuttal 讓步反駁
Method 方法論