Abstract — 摘要
The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
YOLO 系列偵測器已確立其作為高效實用工具的地位。然而,它們依賴預定義且經訓練的物件類別,這限制了其在開放場景中的適用性。為解決此一限制,本文提出 YOLO-World,一種創新方法,透過視覺-語言建模與大規模資料集預訓練,賦予 YOLO 開放詞彙偵測能力。具體而言,作者提出了全新的可重新參數化視覺-語言路徑聚合網路(RepVL-PAN)以及區域-文本對比損失,以促進視覺與語言資訊之間的互動。該方法能以零樣本方式高效偵測廣泛範圍的物件。在具挑戰性的 LVIS 資料集上,YOLO-World 在 V100 上達到 35.4 AP 與 52.0 FPS,在準確度與速度上均優於眾多最先進方法。此外,微調後的 YOLO-World 在多項下游任務上展現優異表現,包含物件偵測與開放詞彙實例分割。
段落功能
全文總覽——以「能力-限制-解決方案-成果」的遞進結構,從 YOLO 的既有優勢出發,指出封閉詞彙的瓶頸,再引出 YOLO-World 的核心創新與實證成果。
邏輯角色
摘要同時承擔「問題界定」與「方案預告」的雙重功能:先界定封閉詞彙的應用缺口,再以量化數據(35.4 AP / 52.0 FPS)預告方法的競爭力。
論證技巧 / 潛在漏洞
以 YOLO 品牌的高知名度作為論文的錨點,巧妙地將讀者對「即時偵測」的既有印象延伸至「開放詞彙」。但「outperforms many state-of-the-art methods」的措辭刻意模糊——「many」而非「all」暗示在某些指標上可能不及最佳模型。
1. Introduction — 緒論
Object detection has been a long-standing and fundamental challenge in computer vision with numerous applications in image understanding, robotics, and autonomous vehicles. Tremendous works have achieved significant breakthroughs with the development of deep neural networks. Despite the success of these methods, they remain limited as they only handle object detection with a fixed vocabulary, for example, 80 categories in the COCO dataset. Once object categories are defined and labeled, trained detectors can only detect those specific categories, thus limiting the ability and applicability of open scenarios.
物件偵測是電腦視覺中長期且根本的挑戰,在影像理解、機器人學與自動駕駛等領域有廣泛應用。隨著深度神經網路的發展,眾多研究已取得重大突破。然而,這些方法的成功仍受限於其僅能處理固定詞彙的物件偵測——例如 COCO 資料集中的 80 個類別。一旦物件類別被定義並標註,訓練完成的偵測器便只能偵測那些特定類別,從而限制了其在開放場景中的能力與適用性。
段落功能
建立研究場域——指出物件偵測的核心成就與封閉詞彙的根本限制。
邏輯角色
論證鏈的起點:先肯定深度學習在偵測領域的成功,再以具體數字(COCO 的 80 類)量化「固定詞彙」的限制,為開放詞彙偵測的必要性建立動機。
論證技巧 / 潛在漏洞
以 COCO 的 80 類作為限制的代表案例極具說服力,因為這是社群最熟悉的基準。但實際上 Objects365(365 類)與 LVIS(1203 類)等資料集已大幅擴展了封閉集偵測的詞彙量,此處的問題框架可能略顯過度簡化。
Recent works have explored the prevalent vision-language models to address open-vocabulary detection through distilling vocabulary knowledge from language encoders, such as BERT. However, these distillation-based methods are much limited due to the scarcity of training data with a limited diversity of vocabulary, for example, OV-COCO containing 48 base categories. Several methods reformulate object detection training as region-level vision-language pre-training and train open-vocabulary object detectors at scale. However, those methods still struggle for detection in real-world scenarios, which suffer from two aspects: (1) heavy computation burden and (2) complicated deployment for edge devices. Previous works have demonstrated the promising performance of pre-training large detectors while pre-training small detectors to endow them with open recognition capabilities remains unexplored.
近期研究已探索運用盛行的視覺-語言模型,透過從語言編碼器(如 BERT)蒸餾詞彙知識來解決開放詞彙偵測問題。然而,這些基於蒸餾的方法因訓練資料稀缺且詞彙多樣性有限(例如 OV-COCO 僅含 48 個基礎類別)而大受限制。若干方法將物件偵測訓練重新表述為區域級視覺-語言預訓練,以規模化方式訓練開放詞彙物件偵測器。然而,這些方法在真實場景偵測中仍面臨困難,主要源於兩方面:(1) 沉重的計算負擔,以及 (2) 在邊緣裝置上部署的複雜性。先前研究已展示了預訓練大型偵測器的優異表現,但對於預訓練小型偵測器以賦予其開放識別能力的研究仍屬空白。
段落功能
批判既有方法——從蒸餾方法的資料瓶頸到大型預訓練模型的效率問題,系統性地揭示研究缺口。
邏輯角色
「問題-解決方案」論證中的問題深化:將現有開放詞彙偵測方法分為「蒸餾派」與「預訓練派」,分別指出各自的瓶頸,最終收窄至「小型偵測器的開放詞彙預訓練」這個精確的研究缺口。
論證技巧 / 潛在漏洞
「remains unexplored」的措辭在學術上十分有力,因為它宣稱佔據了全新的研究領域。但 ZSD-YOLO 等先前工作實際上已嘗試在 YOLO 上實現開放詞彙偵測,此處的「未被探索」主張需謹慎理解為「尚未被有效解決」。
In this paper, we present YOLO-World, aiming for high-efficiency open-vocabulary object detection, and explore large-scale pre-training schemes to boost the traditional YOLO detectors to a new open-vocabulary world. Specifically, YOLO-World follows the standard YOLO architecture and leverages the pre-trained CLIP text encoder to encode the input texts. We further propose the Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) to connect text features and image features for better visual-semantic representation. During inference, the text encoder can be removed and the text embeddings can be re-parameterized into weights of RepVL-PAN for efficient deployment. We further investigate the open-vocabulary pre-training scheme for YOLO detectors through region-text contrastive learning on large-scale datasets, which unifies detection data, grounding data, and image-text data into region-text pairs. We also explore a prompt-then-detect paradigm to further improve the efficiency of open-vocabulary object detection in real-world scenarios.
本文提出 YOLO-World,旨在實現高效率的開放詞彙物件偵測,並探索大規模預訓練策略以將傳統 YOLO 偵測器推向全新的開放詞彙世界。具體而言,YOLO-World 沿用標準 YOLO 架構,並運用預訓練的 CLIP 文本編碼器來編碼輸入文本。作者進一步提出可重新參數化視覺-語言路徑聚合網路(RepVL-PAN),以連接文本特徵與影像特徵,獲取更佳的視覺-語義表示。在推論階段,文本編碼器可被移除,文本嵌入可被重新參數化為 RepVL-PAN 的權重,實現高效部署。此外,作者透過在大規模資料集上進行區域-文本對比學習,探索 YOLO 偵測器的開放詞彙預訓練策略,將偵測資料、定位資料與影像-文本資料統一為區域-文本配對。作者亦探索「提示後偵測」典範,以進一步提升真實場景中開放詞彙物件偵測的效率。
段落功能
提出解決方案——完整概述 YOLO-World 的架構設計、核心模組與部署策略。
邏輯角色
承接上段的研究缺口,此段扮演「轉折」角色:從「現有方法不足」過渡到「本文方案」。RepVL-PAN 的重新參數化直接回應「部署複雜性」的缺陷,區域-文本對比學習則回應「訓練資料不足」的問題。
論證技巧 / 潛在漏洞
「re-parameterized into weights」是極具工程洞察力的設計——推論時消除文本編碼器的計算開銷,使部署成本回歸至傳統 YOLO 的水準。但這也意味著推論時的詞彙是固定的,與真正「即時開放」的語義有微妙差異,作者以「prompt-then-detect」巧妙地重新框架了這一限制。
2. Related Work — 相關工作
Prevalent object detection research concentrates on fixed-vocabulary (close-set) detection, in which object detectors are trained on datasets with pre-defined categories, such as COCO dataset and Objects365 dataset, and then detect objects within the fixed set of categories. The methods for traditional object detection can be categorized into three groups: region-based methods (e.g., Faster R-CNN), pixel-based methods (one-stage detectors), and query-based methods (e.g., DETR). In terms of inference speed, YOLOs exploit simple convolutional architectures for real-time object detection. Several works propose various designs including path aggregation networks, cross-stage partial networks, and re-parameterization, which further improve both speed and accuracy.
主流物件偵測研究聚焦於固定詞彙(封閉集)偵測,偵測器在具有預定義類別的資料集(如 COCO 與 Objects365)上訓練,並在固定類別集合內進行偵測。傳統物件偵測方法可分為三大類:基於區域的方法(如 Faster R-CNN)、基於像素的方法(單階段偵測器),以及基於查詢的方法(如 DETR)。在推論速度方面,YOLO 系列利用簡潔的摺積架構實現即時物件偵測。後續多項研究提出了路徑聚合網路、跨階段部分網路與重新參數化等設計,進一步提升了速度與準確度。
段落功能
文獻回顧——系統性地梳理傳統物件偵測的三大範式及 YOLO 系列的演進。
邏輯角色
為 YOLO-World 建立技術基底:確認 YOLO 架構在速度上的優勢地位,同時指出所有傳統方法共享「固定詞彙」的根本限制,為後續引入視覺-語言整合提供過渡。
論證技巧 / 潛在漏洞
將偵測方法分為三類的分類法簡潔明瞭,便於讀者快速建立全景式理解。然而,此分類僅關注架構差異而忽略了學習策略的差異(如自監督預訓練),在開放詞彙的脈絡下,學習策略的差異可能比架構差異更為關鍵。
Open-vocabulary object detection (OVD) has emerged as a new trend, aiming to detect objects beyond the predefined categories. Early works follow the standard OVD setting by training detectors on base classes and evaluating the novel (unknown) classes, but this is still limited for open scenarios and lacks generalization ability. Inspired by vision-language pre-training, recent works formulate OVD as image-text matching and exploit large-scale image-text data. GLIP presents a pre-training framework based on phrase grounding; Grounding DINO incorporates grounded pre-training into detection transformers. However, these methods often use heavy detectors like ATSS or DINO with Swin-L as backbone, leading to high computational demands and deployment challenges.
開放詞彙物件偵測(OVD)已成為新興趨勢,旨在偵測預定義類別之外的物件。早期研究遵循標準 OVD 設定,在基礎類別上訓練偵測器並在新穎(未知)類別上評估,但這在開放場景中仍受限且缺乏泛化能力。受視覺-語言預訓練的啟發,近期研究將 OVD 表述為影像-文本匹配,並利用大規模影像-文本資料。GLIP 提出了基於短語定位的預訓練框架;Grounding DINO 將定位預訓練融入偵測 Transformer。然而,這些方法往往採用如 ATSS 或 DINO 搭配 Swin-L 骨幹等沉重偵測器,導致高計算需求與部署挑戰。
段落功能
文獻定位——將 YOLO-World 放置於開放詞彙偵測的演進脈絡中,同時突顯效率缺口。
邏輯角色
建立關鍵的學術譜系:OVD 早期方法 -> GLIP/Grounding DINO -> YOLO-World。每一步的轉進都伴隨著「效率」這條主線:大型模型雖然有效但過於沉重。
論證技巧 / 潛在漏洞
以「Swin-L」作為沉重計算的代名詞十分有效,因為社群普遍認知 Swin-L 的計算成本。但作者僅比較了骨幹大小而未提及 GLIP/Grounding DINO 在準確度上的優勢,有選擇性呈現之嫌。
3. Method — 方法
3.1 Pre-training Formulation: Region-Text Pairs
The traditional object detection methods, including the YOLO-series, are trained with instance annotations consisting of bounding boxes and category labels. We reformulate the instance annotations as region-text pairs, where the text corresponds to the region. Specifically, the text can be the category name, noun phrases, or object descriptions. Moreover, YOLO-World adopts both the image and texts (a set of nouns) as input and outputs predicted boxes and the corresponding object embeddings.
傳統物件偵測方法(包含 YOLO 系列)以由邊界框與類別標籤組成的實例標註進行訓練。作者將實例標註重新表述為區域-文本配對,其中文本對應於區域。具體而言,文本可以是類別名稱、名詞片語或物件描述。此外,YOLO-World 同時接受影像與文本(一組名詞)作為輸入,並輸出預測的邊界框與對應的物件嵌入。
段落功能
方法基礎——定義從傳統標註到區域-文本配對的抽象層轉換。
邏輯角色
此段是整個方法的概念地基:將偵測問題從「分類」重新表述為「區域-文本匹配」,使得詞彙不再受限於固定類別集合。這是啟用開放詞彙能力的關鍵抽象。
論證技巧 / 潛在漏洞
以「重新表述」而非「重新設計」的措辭,暗示此變更在概念上是自然且低成本的。但此轉換的成功高度依賴於文本編碼器的品質——若文本嵌入無法捕捉細粒度的語義差異,則區域-文本匹配可能不如直接分類有效。
3.2 Model Architecture
The overall architecture of YOLO-World consists of a YOLO detector, a Text Encoder, and a Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN). The YOLO detector is based on YOLOv8, containing a Darknet backbone as the image encoder, a path aggregation network (PAN) for multi-scale feature pyramids, and a head for bounding box regression and object embeddings. The CLIP text encoder is adopted to extract text embeddings, offering better visual-semantic capabilities compared to text-only language encoders. The paper presents a text contrastive head to obtain the object-text similarity by computing the dot product between normalized object embeddings and normalized text embeddings, with learnable scaling and shifting factors.
YOLO-World 的整體架構由 YOLO 偵測器、文本編碼器,以及可重新參數化視覺-語言路徑聚合網路(RepVL-PAN)三部分組成。YOLO 偵測器基於 YOLOv8 開發,包含 Darknet 骨幹作為影像編碼器、路徑聚合網路(PAN)用於多尺度特徵金字塔,以及用於邊界框迴歸與物件嵌入的偵測頭。採用 CLIP 文本編碼器提取文本嵌入,其視覺-語義能力優於純文本語言編碼器。作者提出文本對比頭,透過計算正規化物件嵌入與正規化文本嵌入的內積(附帶可學習的縮放與偏移因子)來取得物件-文本相似度。
段落功能
架構總覽——描述 YOLO-World 三大組件的角色與技術選擇。
邏輯角色
此段建立了完整的架構藍圖。選擇 YOLOv8 作為基底確保了速度優勢,選擇 CLIP 而非 BERT 作為文本編碼器則確保了視覺-語義對齊能力。文本對比頭的設計使偵測問題轉化為嵌入空間中的相似度計算。
論證技巧 / 潛在漏洞
「learnable scaling and shifting factors」看似微小的設計細節,實際上對訓練穩定性至關重要。作者在消融實驗中證實了 L2 正規化與仿射變換的必要性,展現了工程層面的嚴謹。但對 CLIP 文本編碼器的依賴意味著 YOLO-World 的開放詞彙能力受限於 CLIP 的語義理解範圍。
Training with Online Vocabulary. During training, we construct an online vocabulary for each mosaic sample containing 4 images. Specifically, we sample all positive nouns involved in the mosaic images and randomly sample some negative nouns from the corresponding dataset. The vocabulary for each mosaic sample contains at most M nouns, and M is set to 80 as default.
Inference with Offline Vocabulary. At the inference stage, we present a prompt-then-detect strategy with an offline vocabulary for further efficiency. The user can define a series of custom prompts, which might include captions or categories. The text encoder is utilized to encode these prompts and obtain offline vocabulary embeddings. The offline vocabulary allows for avoiding computation for each input and provides the flexibility to adjust the vocabulary as needed.
Inference with Offline Vocabulary. At the inference stage, we present a prompt-then-detect strategy with an offline vocabulary for further efficiency. The user can define a series of custom prompts, which might include captions or categories. The text encoder is utilized to encode these prompts and obtain offline vocabulary embeddings. The offline vocabulary allows for avoiding computation for each input and provides the flexibility to adjust the vocabulary as needed.
以線上詞彙進行訓練:在訓練階段,作者為每個包含 4 張影像的馬賽克樣本建構線上詞彙。具體而言,取樣馬賽克影像中涉及的所有正向名詞,並從對應資料集中隨機取樣部分負向名詞。每個馬賽克樣本的詞彙至多包含 M 個名詞,預設 M 為 80。
以離線詞彙進行推論:在推論階段,作者提出「提示後偵測」策略搭配離線詞彙以進一步提升效率。使用者可定義一系列自訂提示(可為描述或類別),文本編碼器將這些提示編碼為離線詞彙嵌入。離線詞彙避免了對每個輸入重複計算,同時提供依需求調整詞彙的彈性。
以離線詞彙進行推論:在推論階段,作者提出「提示後偵測」策略搭配離線詞彙以進一步提升效率。使用者可定義一系列自訂提示(可為描述或類別),文本編碼器將這些提示編碼為離線詞彙嵌入。離線詞彙避免了對每個輸入重複計算,同時提供依需求調整詞彙的彈性。
段落功能
實作細節——區分訓練與推論階段的詞彙管理策略。
邏輯角色
此段是方法論中的實用主義環節:線上詞彙確保訓練時的對比學習效果,離線詞彙則確保部署時的推論效率。兩者的設計巧妙地平衡了「開放性」與「效率」的張力。
論證技巧 / 潛在漏洞
「prompt-then-detect」是一個語義上的巧妙重新包裝:本質上推論時的詞彙仍是預先確定的,只是由使用者而非訓練集決定。這與 GLIP 等方法的「即時編碼」相比,在真正的開放性上有所妥協,但作者成功地將此限制轉化為效率優勢的賣點。
3.3 Re-parameterizable Vision-Language PAN
The structure of the proposed RepVL-PAN follows the top-down and bottom-up paths to establish feature pyramids with multi-scale image features. We propose the Text-guided CSPLayer (T-CSPLayer) and Image-Pooling Attention (I-Pooling Attention) to further enhance the interaction between image features and text features. The T-CSPLayer extends the cross-stage partial layers by incorporating text guidance into multi-scale image features, adopting the max-sigmoid attention after the last dark bottleneck block to aggregate text features into image features. The I-Pooling Attention aggregates image features to update text embeddings through max pooling on multi-scale features to obtain 3x3 regions, resulting in 27 patch tokens, then updates text embeddings using multi-head attention. During inference, the offline vocabulary embeddings can be re-parameterized into weights of convolutional or linear layers for deployment.
所提出的 RepVL-PAN 沿用自上而下與自下而上的路徑,以多尺度影像特徵建立特徵金字塔。作者提出文本引導 CSP 層(T-CSPLayer)與影像池化注意力(I-Pooling Attention),進一步增強影像特徵與文本特徵之間的互動。T-CSPLayer 擴展了跨階段部分層,將文本引導融入多尺度影像特徵中,在最後一個 dark 瓶頸區塊後採用最大值-sigmoid 注意力,將文本特徵聚合至影像特徵。I-Pooling Attention 則透過對多尺度特徵進行最大池化以獲得 3x3 區域(共 27 個區塊標記),再以多頭注意力更新文本嵌入,以影像感知資訊增強文本嵌入。在推論階段,離線詞彙嵌入可被重新參數化為摺積層或線性層的權重以便部署。
段落功能
核心創新——詳述 RepVL-PAN 的雙向跨模態融合機制。
邏輯角色
此段是全文論證的技術支柱。T-CSPLayer 實現「文本 -> 影像」的特徵增強(文本引導視覺注意力),I-Pooling Attention 實現「影像 -> 文本」的特徵增強(影像感知豐富文本語義)。雙向融合確保視覺與語言表示的深度對齊。
論證技巧 / 潛在漏洞
重新參數化是本文最具工程價值的洞察:訓練時進行完整的跨模態注意力計算,推論時將固定的文本嵌入「烘焙」進網路權重中,消除了文本編碼器的推論成本。但此設計的物理限制在於,重新參數化後的模型僅能處理編碼時確定的詞彙,更換詞彙需重新執行參數化過程。
3.4 Pre-training Schemes — 預訓練策略
Region-Text Contrastive Loss. Given the mosaic sample and texts, YOLO-World outputs K object predictions. We leverage task-aligned label assignment to match predictions with ground-truth annotations and assign each positive prediction with a text index as the classification label. We construct the region-text contrastive loss through cross entropy between object-text similarity and object-text assignments. In addition, we adopt IoU loss and distributed focal loss for bounding box regression.
Pseudo Labeling with Image-Text Data. Rather than directly using image-text pairs, we propose an automatic labeling approach: (1) extract noun phrases using n-gram algorithm; (2) pseudo labeling using a pre-trained open-vocabulary detector (GLIP) to generate pseudo boxes; (3) filtering by employing pre-trained CLIP to evaluate relevance and filter low-relevance annotations. Through this approach, we sample and label 246k images from CC3M with 821k pseudo annotations.
Pseudo Labeling with Image-Text Data. Rather than directly using image-text pairs, we propose an automatic labeling approach: (1) extract noun phrases using n-gram algorithm; (2) pseudo labeling using a pre-trained open-vocabulary detector (GLIP) to generate pseudo boxes; (3) filtering by employing pre-trained CLIP to evaluate relevance and filter low-relevance annotations. Through this approach, we sample and label 246k images from CC3M with 821k pseudo annotations.
區域-文本對比損失:給定馬賽克樣本與文本,YOLO-World 輸出 K 個物件預測。作者運用任務對齊標籤分配將預測與真實標註匹配,並為每個正向預測指定文本索引作為分類標籤。透過物件-文本相似度與物件-文本分配之間的交叉熵建構區域-文本對比損失。此外,採用 IoU 損失與分散式焦點損失進行邊界框迴歸。
以影像-文本資料進行偽標註:作者並非直接使用影像-文本配對,而是提出自動標註方法:(1) 使用 n-gram 演算法提取名詞片語;(2) 以預訓練的開放詞彙偵測器(GLIP)進行偽標註以生成偽邊界框;(3) 運用預訓練 CLIP 評估相關性並過濾低相關性標註。透過此方法,從 CC3M 中取樣並標註 24.6 萬張影像,共 82.1 萬個偽標註。
以影像-文本資料進行偽標註:作者並非直接使用影像-文本配對,而是提出自動標註方法:(1) 使用 n-gram 演算法提取名詞片語;(2) 以預訓練的開放詞彙偵測器(GLIP)進行偽標註以生成偽邊界框;(3) 運用預訓練 CLIP 評估相關性並過濾低相關性標註。透過此方法,從 CC3M 中取樣並標註 24.6 萬張影像,共 82.1 萬個偽標註。
段落功能
訓練策略——描述損失函數設計與資料擴增的偽標註管線。
邏輯角色
此段解決「如何有效訓練」的問題。區域-文本對比損失將偵測轉化為對比學習問題,而偽標註管線則將豐富但無邊界框的影像-文本資料轉化為可用的訓練訊號,大幅擴展了訓練資料的規模與多樣性。
論證技巧 / 潛在漏洞
偽標註管線的三步驟設計展現了實用主義精神:利用既有模型(GLIP + CLIP)的能力來生成更多訓練資料。但此策略存在「teacher ceiling」問題——偽標註的品質受限於 GLIP 的偵測能力與 CLIP 的過濾能力,YOLO-World 在這些類別上的表現理論上無法超越其教師模型。
4. Experiments — 實驗
YOLO-World is developed based on the MMYOLO and MMDetection toolboxes with three variants: small (S), medium (M), and large (L). For pre-training, the model is trained for 100 epochs on 32 NVIDIA V100 GPUs with a total batch size of 512, using AdamW optimizer with initial learning rate of 0.002 and weight decay of 0.05. The pre-training data includes Objects365 (V1, 365 categories, 609k images), GQA (621k images), Flickr30k (149k images), and CC3M (246k images with 821k pseudo annotations). The text encoder is frozen during pre-training. On the challenging LVIS dataset (1203 categories) in zero-shot evaluation, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, outperforming GLIP, GLIPv2, and Grounding DINO with fewer model parameters. Compared to DetCLIP, YOLO-World achieves comparable performance (35.4 vs 34.4 AP) while obtaining a 20x increase in inference speed.
YOLO-World 基於 MMYOLO 與 MMDetection 工具箱開發,提供小型(S)、中型(M)與大型(L)三個變體。預訓練階段在 32 張 NVIDIA V100 GPU 上以總批次大小 512 訓練 100 個 epoch,採用 AdamW 最佳化器(初始學習率 0.002、權重衰減 0.05)。預訓練資料包含 Objects365(V1,365 個類別,60.9 萬張影像)、GQA(62.1 萬張影像)、Flickr30k(14.9 萬張影像)及 CC3M(24.6 萬張影像,82.1 萬個偽標註)。文本編碼器在預訓練期間凍結。在具挑戰性的 LVIS 資料集(1203 個類別)的零樣本評估中,YOLO-World 在 V100 上達到 35.4 AP 與 52.0 FPS,以更少的模型參數超越 GLIP、GLIPv2 與 Grounding DINO。相較於 DetCLIP,YOLO-World 達到相當的表現(35.4 對 34.4 AP),同時取得 20 倍的推論速度提升。
段落功能
核心實證——以 LVIS 零樣本評估展示 YOLO-World 在準確度與速度上的雙重優勢。
邏輯角色
此段是全文論證的實證基石。1203 個類別的 LVIS 評估直接驗證了「開放詞彙」的承諾,52.0 FPS 的推論速度則驗證了「即時偵測」的承諾。兩者缺一不可——前者回應方法的有效性,後者回應方法的實用性。
論證技巧 / 潛在漏洞
「20x increase in inference speed」是極具衝擊力的數據,但此比較的公平性值得審視:DetCLIP 使用 Swin-L 骨幹,模型規模遠大於 YOLO-World-L。更有意義的比較應控制模型參數量或 FLOPs。此外,35.4 AP 雖優於 DetCLIP,但與 Grounding DINO 等最新方法的差距未被充分討論。
4.3 Ablation Experiments — 消融實驗
Pre-training Data. Compared to the baseline trained on Objects365, adding GQA significantly improves performance with an 8.4 AP gain on LVIS. This improvement is attributed to the richer textual information provided by the GQA dataset. Adding part of CC3M (8% of full datasets) further brings 0.5 AP gain with 1.3 AP on rare objects.
Ablations on RepVL-PAN. The proposed RepVL-PAN improves the baseline (YOLOv8-PAN) by 1.1 AP on LVIS, and the improvements are remarkable in terms of the rare categories (AP_r). The improvements become more significant when pre-trained with the GQA dataset.
Text Encoders. The CLIP text encoder obtains superior results over BERT (+10.1 AP for rare categories). Fine-tuning BERT brings improvements (+3.7 AP) while fine-tuning CLIP leads to severe performance drop, attributed to degradation of generalization when fine-tuning on O365's limited 365 categories.
Ablations on RepVL-PAN. The proposed RepVL-PAN improves the baseline (YOLOv8-PAN) by 1.1 AP on LVIS, and the improvements are remarkable in terms of the rare categories (AP_r). The improvements become more significant when pre-trained with the GQA dataset.
Text Encoders. The CLIP text encoder obtains superior results over BERT (+10.1 AP for rare categories). Fine-tuning BERT brings improvements (+3.7 AP) while fine-tuning CLIP leads to severe performance drop, attributed to degradation of generalization when fine-tuning on O365's limited 365 categories.
預訓練資料:相較於僅在 Objects365 上訓練的基線,加入 GQA 顯著提升表現,在 LVIS 上取得 8.4 AP 的增益。此改進歸因於 GQA 資料集提供的更豐富文本資訊。加入部分 CC3M(完整資料集的 8%)進一步帶來 0.5 AP 增益,其中稀有物件增益 1.3 AP。
RepVL-PAN 消融:所提出的 RepVL-PAN 相較基線(YOLOv8-PAN)在 LVIS 上提升 1.1 AP,且在稀有類別(AP_r)上的改進尤為顯著。當使用 GQA 資料集預訓練時,改進更為明顯。
文本編碼器:CLIP 文本編碼器的結果顯著優於 BERT(稀有類別 +10.1 AP)。微調 BERT 可帶來改進(+3.7 AP),但微調 CLIP 反而導致嚴重的效能下降,原因在於在 O365 有限的 365 個類別上微調會劣化 CLIP 的泛化能力。
RepVL-PAN 消融:所提出的 RepVL-PAN 相較基線(YOLOv8-PAN)在 LVIS 上提升 1.1 AP,且在稀有類別(AP_r)上的改進尤為顯著。當使用 GQA 資料集預訓練時,改進更為明顯。
文本編碼器:CLIP 文本編碼器的結果顯著優於 BERT(稀有類別 +10.1 AP)。微調 BERT 可帶來改進(+3.7 AP),但微調 CLIP 反而導致嚴重的效能下降,原因在於在 O365 有限的 365 個類別上微調會劣化 CLIP 的泛化能力。
段落功能
設計驗證——透過系統性消融實驗,逐一確認各組件與設計選擇的貢獻。
邏輯角色
消融實驗是方法論論證的嚴謹性保障,從三個維度驗證設計選擇:(1) 資料多樣性對泛化的貢獻;(2) RepVL-PAN 跨模態融合的有效性;(3) CLIP vs BERT 的文本編碼器選擇及其微調策略。
論證技巧 / 潛在漏洞
GQA 帶來 8.4 AP 的巨大增益令人矚目,但這也暴露了模型對訓練資料文本豐富度的高度依賴——若無法取得類似 GQA 的豐富文本標註,方法的效能可能大打折扣。CLIP 微調導致效能下降的發現極具啟發性,揭示了預訓練模型泛化能力與任務適配之間的微妙平衡。
Fine-tuning on COCO. For fine-tuning on COCO, the RepVL-PAN is removed for further acceleration given the small vocabulary size. YOLO-World achieves decent zero-shot performance on COCO and higher performance after fine-tuning compared to methods trained from scratch.
Fine-tuning on LVIS. Compared to oracle YOLOv8-L trained on full LVIS, YOLO-World-L outperforms by 7.2 AP and 10.2 AP_r, demonstrating the effectiveness of the pre-training strategy for large-vocabulary detection. YOLO-World, as an efficient one-stage detector, outperforms previous state-of-the-art two-stage methods on overall performance.
Open-Vocabulary Instance Segmentation. The authors extend YOLO-World for open-vocabulary instance segmentation (OVIS), benchmarking under COCO-to-LVIS and LVIS-base-to-LVIS settings. Fine-tuning only the segmentation head retains zero-shot capabilities, while fine-tuning all modules may degrade open-vocabulary performance despite improving overall LVIS metrics.
Fine-tuning on LVIS. Compared to oracle YOLOv8-L trained on full LVIS, YOLO-World-L outperforms by 7.2 AP and 10.2 AP_r, demonstrating the effectiveness of the pre-training strategy for large-vocabulary detection. YOLO-World, as an efficient one-stage detector, outperforms previous state-of-the-art two-stage methods on overall performance.
Open-Vocabulary Instance Segmentation. The authors extend YOLO-World for open-vocabulary instance segmentation (OVIS), benchmarking under COCO-to-LVIS and LVIS-base-to-LVIS settings. Fine-tuning only the segmentation head retains zero-shot capabilities, while fine-tuning all modules may degrade open-vocabulary performance despite improving overall LVIS metrics.
COCO 微調:在 COCO 上微調時,鑒於詞彙量較小,移除 RepVL-PAN 以進一步加速。YOLO-World 在 COCO 上展現不錯的零樣本表現,且微調後的效能優於從零開始訓練的方法。
LVIS 微調:相較於在完整 LVIS 上訓練的 YOLOv8-L 基準模型,YOLO-World-L 超越了 7.2 AP 與 10.2 AP_r,展示了預訓練策略在大詞彙偵測上的有效性。YOLO-World 作為高效的單階段偵測器,在整體表現上優於先前最先進的兩階段方法。
開放詞彙實例分割:作者將 YOLO-World 擴展至開放詞彙實例分割(OVIS),在 COCO 到 LVIS 與 LVIS-base 到 LVIS 兩種設定下進行基準測試。僅微調分割頭可保留零樣本能力,而微調所有模組雖改善整體 LVIS 指標,卻可能劣化開放詞彙的表現。
LVIS 微調:相較於在完整 LVIS 上訓練的 YOLOv8-L 基準模型,YOLO-World-L 超越了 7.2 AP 與 10.2 AP_r,展示了預訓練策略在大詞彙偵測上的有效性。YOLO-World 作為高效的單階段偵測器,在整體表現上優於先前最先進的兩階段方法。
開放詞彙實例分割:作者將 YOLO-World 擴展至開放詞彙實例分割(OVIS),在 COCO 到 LVIS 與 LVIS-base 到 LVIS 兩種設定下進行基準測試。僅微調分割頭可保留零樣本能力,而微調所有模組雖改善整體 LVIS 指標,卻可能劣化開放詞彙的表現。
段落功能
擴展驗證——展示預訓練權重在多種下游任務上的遷移能力與適用性。
邏輯角色
此段將論證從「零樣本開放詞彙偵測」擴展到更廣泛的應用場景。COCO/LVIS 微調驗證了預訓練的通用價值,OVIS 則展示了跨任務的遷移能力。三者共同構成 YOLO-World 作為通用預訓練模型的完整畫面。
論證技巧 / 潛在漏洞
微調所有模組導致開放詞彙能力下降的發現,誠實地揭示了「任務適配」與「開放泛化」之間的根本張力。這是一個重要的負面結果——在實際部署中,使用者需在兩者之間做出取捨。作者透過提供兩種微調策略(僅分割頭 vs 全模組)來讓使用者自行選擇,是務實的處理方式。
5. Conclusion — 結論
We present YOLO-World, a cutting-edge real-time open-vocabulary detector aiming to improve efficiency and open-vocabulary capability in real-world applications. We have reshaped the prevalent YOLOs as a vision-language YOLO architecture for open-vocabulary pre-training and detection and proposed RepVL-PAN, which connects vision and language information with the network and can be re-parameterized for efficient deployment. We further present the effective pre-training schemes with detection, grounding and image-text data to endow YOLO-World with a strong capability for open-vocabulary detection. Experiments demonstrate the superiority of YOLO-World in terms of speed and open-vocabulary performance and indicate the effectiveness of vision-language pre-training on small models, which is insightful for future research. We hope YOLO-World can serve as a new benchmark for addressing real-world open-vocabulary detection.
本文提出 YOLO-World,一款前沿的即時開放詞彙偵測器,旨在提升真實應用中的效率與開放詞彙能力。作者將主流 YOLO 重塑為視覺-語言 YOLO 架構,用於開放詞彙預訓練與偵測,並提出 RepVL-PAN,在網路中連接視覺與語言資訊,且可透過重新參數化實現高效部署。作者進一步提出結合偵測、定位與影像-文本資料的有效預訓練策略,賦予 YOLO-World 強大的開放詞彙偵測能力。實驗證明 YOLO-World 在速度與開放詞彙表現上的優越性,並表明視覺-語言預訓練對小型模型的有效性,為未來研究提供了具洞察力的方向。作者期望 YOLO-World 能成為解決真實世界開放詞彙偵測的新基準。
段落功能
總結全文——重申核心貢獻並展望方法的影響力。
邏輯角色
結論段與摘要形成完整的論證閉環:摘要提出問題與方案預告,結論確認方案的成功並提煉出更高層次的啟示——「小型模型也能有效進行視覺-語言預訓練」。
論證技巧 / 潛在漏洞
「serve as a new benchmark」的措辭展現了適度的野心,但結論缺乏對局限性的充分討論——例如對 CLIP 文本編碼器的依賴、重新參數化後詞彙固定的限制、以及在真正開放(非預設詞彙)場景下的表現。此外,未提及與同期工作(如 OWL-ViT v2、Grounding DINO 1.5)的潛在比較,留下了後續研究的開放問題。
論證結構總覽
問題
YOLO 僅能偵測
固定詞彙類別
YOLO 僅能偵測
固定詞彙類別
→
論點
視覺-語言預訓練
賦予 YOLO 開放詞彙能力
視覺-語言預訓練
賦予 YOLO 開放詞彙能力
→
證據
LVIS 35.4 AP / 52 FPS
超越多數最先進方法
LVIS 35.4 AP / 52 FPS
超越多數最先進方法
→
反駁
RepVL-PAN 重新參數化
兼顧開放性與即時性
RepVL-PAN 重新參數化
兼顧開放性與即時性
→
結論
小型模型亦可有效
進行視覺-語言預訓練
小型模型亦可有效
進行視覺-語言預訓練
作者核心主張(一句話)
透過可重新參數化的視覺-語言路徑聚合網路與大規模區域-文本對比預訓練,小型 YOLO 偵測器也能獲得高效且具競爭力的開放詞彙物件偵測能力。
論證最強處
重新參數化的工程創新:RepVL-PAN 在訓練時執行完整的跨模態注意力計算以充分融合視覺與語言資訊,在推論時將文本嵌入「烘焙」進網路權重中,消除文本編碼器的計算開銷。此設計使 YOLO-World 在部署成本上回歸傳統 YOLO 的水準,同時保有開放詞彙的偵測能力,實現了「效率」與「開放性」之間前所未有的平衡。
論證最弱處
「開放」語義的邊界模糊:推論時詞彙實際上是透過離線預設的,與 GLIP/Grounding DINO 等可即時接受任意文本提示的方法相比,YOLO-World 的「開放」更接近「使用者可定義的封閉集」。此外,模型對 CLIP 文本編碼器的依賴意味著其開放詞彙能力受限於 CLIP 的語義理解範圍,而非真正無邊界的開放識別。微調全模組時開放詞彙能力下降的問題也揭示了預訓練泛化與任務適配之間的根本張力。