Abstract — 摘要
Today's most advanced multimodal models remain proprietary. The strongest open-weight models rely heavily on synthetic data from proprietary VLMs to achieve good performance, effectively distilling these closed models into open ones. As a result, the community is still missing foundational knowledge about how to build performant VLMs from scratch. We present Molmo, a family of open vision-language models that achieves state-of-the-art performance among open-weight and open-data models. Our key innovation is a novel, human-annotated image caption dataset created using speech-based descriptions. We also introduce diverse fine-tuning datasets including in-the-wild Q&A and 2D pointing data.
當今最先進的多模態模型仍屬於專有閉源系統。最強的開放權重模型高度依賴專有視覺語言模型所產生的合成資料以達成良好效能,本質上是將封閉模型蒸餾至開放模型之中。因此,研究社群仍然缺乏從零建構高效能視覺語言模型的基礎知識。我們提出 Molmo,一個開放的視覺語言模型家族,在開放權重與開放資料的模型類別中達到最先進效能。核心創新在於一套新穎的、以語音描述方式由人工標註的影像說明文字資料集,同時引入包含自然場景問答與二維指向資料在內的多樣化微調資料集。
段落功能
全文總覽——以遞進方式從「專有模型主導」到「開放模型的蒸餾困境」,最終引出 Molmo 的定位。
邏輯角色
摘要承擔「問題定義與解決方案預告」的雙重功能:先界定開放 VLM 領域對專有模型的依賴問題,再以一句話概述 Molmo 如何以語音標註的創新資料策略回應此缺口。
論證技巧 / 潛在漏洞
「蒸餾封閉模型」的框架極具修辭力——將其他開放模型定性為專有系統的衍生品,凸顯 Molmo 的獨立性。但嚴格來說,Molmo 仍使用語言模型處理語音轉錄文字,此步驟的「完全獨立於專有系統」主張需進一步審視。
The best-in-class 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation. Even the smallest model, MolmoE-1B, nearly matches the performance of GPT-4V. All model weights, caption and fine-tuning data, and source code are released to the public.
Molmo 家族中最佳的 72B 模型不僅在開放權重與開放資料的模型類別中超越同級對手,更在學術基準測試與人類評估上均能與 GPT-4o、Claude 3.5 及 Gemini 1.5 等專有系統相匹敵。即便是最小的 MolmoE-1B 模型,其效能也幾乎追平 GPT-4V。所有模型權重、說明文字與微調資料集及原始碼均對外公開釋出。
段落功能
量化成果——以具體的模型比較數據支撐核心主張。
邏輯角色
此段將摘要的定性主張轉化為可驗證的量化陳述,同時以「全面公開釋出」收束,強化論文的開放科學立場。
論證技巧 / 潛在漏洞
以 GPT-4o、Claude 3.5 等知名專有模型作為比較對象,能迅速建立讀者對 Molmo 能力的直覺認知。但「compares favorably」一詞較為模糊——在部分基準上超越但在其他基準上不及的情況也可用此詞描述,具體數據需在評估章節驗證。
1. Introduction — 緒論
Extensions to large language models that process images alongside text have achieved impressive multimodal capabilities. The most performant of these vision-language models (VLMs), however, remain proprietary with neither model weights, data, nor code being publicly released. Researchers have pursued open VLM development, with early works like LLaVA producing fully open weights and training data but now lagging significantly behind state-of-the-art performance. More recent, stronger open-weight models have trended towards less open data: the training data may either be proprietary, or there is a heavy reliance on synthetic data generated by proprietary systems.
將大型語言模型擴展至同時處理影像與文字,已展現令人印象深刻的多模態能力。然而,這些視覺語言模型中效能最優者仍屬專有系統,模型權重、資料與程式碼皆未公開釋出。研究者持續推動開放 VLM 的發展,早期如 LLaVA 等工作雖提供了完全開放的權重與訓練資料,但其效能已顯著落後於當前最先進水準。近期更強的開放權重模型則趨向資料封閉化:訓練資料可能是專有的,或者高度依賴由專有系統產生的合成資料。
段落功能
建立研究場域——指出 VLM 領域中「效能」與「開放性」之間的矛盾。
邏輯角色
論證鏈的起點:先肯定 VLM 的成就,再揭示「開放性遞減」的趨勢。以 LLaVA 為代表的早期開放模型被框架為「效能不足」,近期強模型則被框架為「開放度不足」,為 Molmo 的「兼顧兩者」定位鋪路。
論證技巧 / 潛在漏洞
將開放 VLM 的發展描述為「效能與開放性二選一」的困境,修辭上非常有效。但這簡化了實際情況——例如 InternVL 等模型在效能與開放性上均有不俗表現。此處的二元框架有利於凸顯 Molmo 的獨特貢獻。
The resulting VLMs are effectively distillations of proprietary VLMs, and the scientific community is still missing foundational knowledge about how to build performant VLMs from scratch. We present Molmo, a family of state-of-the-art open VLMs. This result is achieved with a simple training pipeline in which we connect an independently pre-trained, off-the-shelf vision encoder and language model and jointly train the resulting VLM to generate captions from a newly collected dataset of detailed, high-quality, dense image descriptions. A critical challenge in dense caption collection is that if asked to write an image description, the result often only mentions a few salient visual elements; if a minimum word count is enforced, annotators will either take too long or copy-and-paste responses from proprietary VLMs.
這些 VLM 實質上是專有模型的蒸餾產物,科學社群仍然缺乏從零建構高效能 VLM 的基礎知識。我們提出 Molmo,一個達到最先進水準的開放 VLM 家族。此成果透過一條簡潔的訓練管線達成:將獨立預訓練的現成視覺編碼器與語言模型連接,聯合訓練所得的 VLM 以產生說明文字,訓練資料來自一套新蒐集的高品質、高密度影像描述資料集。密集說明文字蒐集的關鍵挑戰在於:若要求標註者撰寫影像描述,結果往往僅提及少數顯著視覺元素;若強制最低字數,標註者要麼耗時過長,要麼直接從專有 VLM 複製貼上回答。
段落功能
提出解決方案——概述 Molmo 的訓練策略與資料蒐集的核心挑戰。
邏輯角色
承接上段的問題陳述,此段扮演「轉折」角色:從「現有開放模型不足」過渡到「Molmo 的設計理念」。同時預告資料蒐集的挑戰,為下一段的語音標註創新鋪墊。
論證技巧 / 潛在漏洞
以「簡潔的訓練管線」自我定位,暗示方法的可複現性高。指出標註者可能「從專有 VLM 複製貼上」的現象極具說服力,因為這直接質疑了其他「開放」資料集的獨立性。此論點為 PixMo 資料集的必要性提供了強有力的動機。
Our innovation leverages a shift in modality: we ask annotators to describe images in speech for 60 to 90 seconds rather than asking them to write descriptions. With this modality switching "trick," annotators provide far more detailed descriptions in less time. The annotators' audio is then transcribed using an off-the-shelf speech-to-text system, and the transcribed text is processed using a language-only LLM to improve text quality, such as removing spoken artifacts and normalizing style. This process produces dense, detailed image captions that rival or exceed captions generated by proprietary VLMs, while being genuinely human-authored.
我們的創新利用模態轉換:要求標註者以語音方式描述影像 60 至 90 秒,而非書寫描述。透過此模態切換「技巧」,標註者能在更短時間內提供遠為詳盡的描述。標註者的語音隨後以現成的語音轉文字系統進行轉錄,再經由純語言大型語言模型處理以提升文字品質,例如去除口語偽影與統一文體風格。此流程產生密度高、內容詳盡的影像說明文字,品質媲美甚至超越專有 VLM 產生的說明文字,同時保有真正人工撰寫的本質。
段落功能
核心創新揭示——說明語音標註策略的動機、機制與成效。
邏輯角色
此段是全文最具原創性的貢獻陳述。以「模態切換」解決標註品質問題,將一個人因工程的洞察轉化為可擴展的資料蒐集方法論。
論證技巧 / 潛在漏洞
「語音比書寫產生更多描述」的主張在直覺上合理——人類語速約每分鐘 150 詞,而打字速度約 40 詞。但語音轉錄後經 LLM 處理的步驟引入了非人類因素:最終的說明文字品質部分取決於 LLM 的改寫能力,這與「完全獨立於專有模型」的主張存在張力。
2. Architecture — 模型架構
Our model architecture follows the simple and standard design of combining a language model with a vision encoder. It consists of four components: (1) a pre-processor that converts the input image into a set of multiscale, multi-crop images, (2) a ViT image encoder that independently maps each of these images into a set of vision tokens, (3) a connector that projects the vision tokens to the language model's input dimension with an MLP and then pools the vision tokens to reduce their count, and (4) a decoder-only Transformer LLM. From this template, we construct a family of models parameterized by the choice of vision encoder and LLM.
我們的模型架構遵循將語言模型與視覺編碼器結合的簡潔標準設計。它由四個組件構成:(1) 預處理器,將輸入影像轉換為一組多尺度、多裁切的影像;(2) ViT 影像編碼器,獨立將每張影像映射為一組視覺詞元;(3) 連接器,以多層感知器將視覺詞元投影至語言模型的輸入維度,隨後透過池化減少視覺詞元數量;(4) 僅解碼器的 Transformer 大型語言模型。以此範本為基礎,我們透過選擇不同的視覺編碼器與 LLM 來建構一系列模型。
段落功能
架構概述——以清晰的四步管線描述模型的整體設計。
邏輯角色
此段刻意強調「簡潔且標準」,暗示 Molmo 的優勢主要來自資料品質而非架構創新。四組件的列舉方式使讀者能迅速掌握系統全貌。
論證技巧 / 潛在漏洞
以「標準設計」定位架構是雙刃劍:一方面突顯資料的重要性,另一方面可能使審稿人質疑架構層面的技術貢獻。多尺度多裁切的預處理器與 MLP+池化的連接器設計實際上包含非平凡的工程選擇,但此處被輕描淡寫。
The released models employ OpenAI's ViT-L/14 336px CLIP model as the vision encoder, which provides consistently good results. For the language model component, we explore several options: OLMo-7B-1024 (fully open), OLMoE-1B-7B (a mixture-of-experts variant with only 1B active parameters), Qwen2 7B, and Qwen2 72B. Given these choices, the subsequent training data and recipe are the same for all models aside from optimizer learning rates. This design allows us to study the effect of language model scale and architecture while keeping all other variables constant.
已釋出的模型使用 OpenAI 的 ViT-L/14 336px CLIP 模型作為視覺編碼器,此編碼器能穩定提供良好結果。在語言模型方面,我們探索多種選項:OLMo-7B-1024(完全開放)、OLMoE-1B-7B(混合專家變體,僅 1B 活躍參數)、Qwen2 7B 以及 Qwen2 72B。在確定這些選擇後,所有模型的後續訓練資料與訓練方案完全相同,僅最佳化器學習率有所差異。此設計使我們得以在控制其他變數不變的前提下,研究語言模型規模與架構的影響。
段落功能
模型變體介紹——列舉 Molmo 家族的具體配置與實驗設計邏輯。
邏輯角色
此段同時服務兩個目的:為讀者提供模型選擇的實用參考,並建立「控制變數」的實驗框架,為後續的比較分析奠定方法論基礎。
論證技巧 / 潛在漏洞
混用完全開放(OLMo)與半開放(Qwen2)的語言模型骨幹是務實的選擇,但稍微削弱了「完全開放」的敘事。最佳表現的 72B 模型基於 Qwen2,而非完全開放的 OLMo,這一事實可能被批評者視為對專有基礎模型的間接依賴。
3. Data and Training — 資料與訓練
3.1 PixMo-Cap: Speech-Based Caption Collection — 語音式說明文字蒐集
The training process consists of two stages: multimodal pre-training for caption generation and supervised fine-tuning. All model parameters are updated in both stages. We do not use RLHF. For the first stage, we started by sourcing web images according to a diverse set of approximately 70 high-level topics (e.g., street signs, memes, food, drawings, websites, blurry photos), and for each image we asked three annotators to describe the image in detail by speaking for at least 60 seconds. Annotators received prompts addressing: image overview, object counts, text content, spatial positioning, subtle details, background elements, and style or color.
訓練流程由兩個階段組成:多模態預訓練(用於說明文字生成)與監督式微調。兩個階段皆更新所有模型參數。我們不使用基於人類回饋的強化學習(RLHF)。在第一階段,我們依據約 70 個高階主題(如街道標誌、迷因、食物、繪畫、網站、模糊照片等)從網路蒐集影像,並針對每張影像請三位標註者以語音詳細描述影像至少 60 秒。標註者收到的提示涵蓋:影像概述、物件計數、文字內容、空間定位、細微細節、背景元素及風格或色彩。
段落功能
方法推導第一步——定義兩階段訓練管線與 PixMo-Cap 資料蒐集流程。
邏輯角色
此段建立方法論的核心框架。「不使用 RLHF」的聲明尤為重要,因為它暗示 Molmo 的效能完全來自資料品質與預訓練/微調,而非複雜的對齊技術。
論證技巧 / 潛在漏洞
70 個高階主題的多樣性設計值得肯定,但具體的主題選擇標準未公開——是否存在選擇偏差?此外,每張影像三位標註者的設計提供了冗餘,但標註者間的一致性指標未報告。
The annotators' audio was then transcribed using an off-the-shelf speech-to-text system, and the transcribed text was processed using a language-only LLM to improve the text quality, for example removing spoken artifacts and normalizing style. Our training process uses all four of these image LLM-processed transcripts, when available, as a form of naturalistic data augmentation. In total, we trained on 712k distinct images with approximately 1.3M captions including the augmentation. This represents a fundamentally different approach from synthetic caption generation: the visual observations are genuinely human-sourced, with the LLM serving only as a stylistic normalizer rather than as the source of visual understanding.
標註者的語音隨後以現成的語音轉文字系統進行轉錄,轉錄文字再經由純語言大型語言模型處理以提升文字品質,例如去除口語偽影與統一文體風格。我們的訓練流程使用所有四份經 LLM 處理的影像轉錄文字(若可取得)作為一種自然的資料增強形式。總計以 712,000 張不同影像搭配約 130 萬份說明文字進行訓練(含增強資料)。這代表一種與合成說明文字生成根本不同的方法:視覺觀察確實由人類提供,LLM 僅作為文體風格的標準化工具,而非視覺理解的來源。
段落功能
提供資料規模與處理流程的具體細節,並辯護資料的原創性。
邏輯角色
此段承擔兩重任務:(1) 提供可複現的具體數字(712k 影像、1.3M 說明文字);(2) 預防「使用 LLM 處理 = 合成資料」的質疑,明確界定 LLM 的角色僅限於「文體標準化」。
論證技巧 / 潛在漏洞
「LLM 僅作為文體標準化工具」的界定是精巧的修辭邊界——但實際上 LLM 可能在「去除口語偽影」的過程中添加、修改或重組了資訊,這超出了純粹的文體調整。此界線在實務上是否成立,取決於 LLM 處理前後的語義保真度比較,但論文未提供此類分析。
3.2 Supervised Fine-Tuning — 監督式微調
After training for captioning, we fine-tune all model parameters on a mixture of supervised training data. This mixture includes common academic datasets and several new PixMo datasets. PixMo-AskModelAnything was created with 162k question-answer pairs from 73k images, enabling diverse user query handling through an annotation workflow where an annotator would select an image, write a question about it, and iterate with model responses until the answer was acceptable. PixMo-CapQA generated 214k question-answer pairs from 165k images by prompting a language-only LLM given ground-truth captions. PixMo-Docs created 2.3M question-answer pairs from 255k document, chart, and table images using code generation and privileged access to underlying data.
在完成說明文字預訓練後,我們以一組混合的監督式訓練資料對所有模型參數進行微調。此混合資料包含常見的學術資料集與數個全新的 PixMo 資料集。PixMo-AskModelAnything 包含 162,000 個問答對(來自 73,000 張影像),透過標註者選擇影像、撰寫問題並與模型回答反覆迭代的標註流程,實現多樣化的使用者查詢處理能力。PixMo-CapQA 以地面真值說明文字為條件提示純語言 LLM,從 165,000 張影像中生成 214,000 個問答對。PixMo-Docs 利用程式碼生成與對底層資料的特權存取,從 255,000 張文件、圖表與表格影像中產生 230 萬個問答對。
段落功能
資料集展示——逐一介紹 PixMo 微調資料集系列的內容與規模。
邏輯角色
此段從「通用說明文字能力」擴展至「專門任務能力」,展示 Molmo 的全面性。三個資料集分別針對自由問答、說明文字衍生問答與文件理解,涵蓋不同的應用場景。
論證技巧 / 潛在漏洞
PixMo-AskModelAnything 的「人機迭代」標註流程極具巧思——它同時產生訓練資料並修正模型弱點。然而,PixMo-CapQA 使用 LLM 從地面真值說明文字生成問答,以及 PixMo-Docs 使用程式碼生成,這些方法的「開放性」與「非蒸餾性」需進一步審視。
Additional fine-tuning data includes PixMo-Clocks, constructed from 826k examples using synthetic analog clock images with time-reading questions, targeting a specific weakness in VLMs. The academic datasets incorporated include VQA v2, TextVQA, OK-VQA, ChartQA, DocVQA, InfoVQA, AI2D, RealWorldQA, MMMU, and others. This careful mixture of human-annotated, programmatically generated, and academic datasets ensures that the model develops broad competence across diverse visual understanding tasks while maintaining strong general conversational abilities.
額外的微調資料還包含 PixMo-Clocks,以 826,000 個合成類比時鐘影像搭配時間讀取問題構成,針對 VLM 的特定弱點進行強化。納入的學術資料集涵蓋 VQA v2、TextVQA、OK-VQA、ChartQA、DocVQA、InfoVQA、AI2D、RealWorldQA、MMMU 等。此套精心調配的人工標註、程式化生成與學術資料集的混合,確保模型在多樣化的視覺理解任務上發展廣泛的能力,同時維持強健的通用對話能力。
段落功能
補充資料——列舉其餘微調資料來源與學術基準資料集。
邏輯角色
此段展示方法論的全面性:從合成資料(時鐘)到學術標準(VQA 系列),再到文件理解(DocVQA),形成完整的能力光譜。
論證技巧 / 潛在漏洞
PixMo-Clocks 的存在頗具啟發性——它揭示了 VLM 在特定「簡單」任務上的系統性失敗(讀時鐘),並以針對性合成資料解決。但大量使用學術基準資料集作為訓練資料,可能在評估這些相同基準時造成資料污染的疑慮,作者需證明訓練與測試集不重疊。
3.3 PixMo-Points: Pointing Capability — 指向能力
We collected pointing data that achieves three goals: (1) enables the model to point to anything described by text, (2) enables the model to count by pointing, and (3) enables the model to use pointing as a natural form of visual explanation when answering questions. The collection process involved asking human annotators to point at something in an image, write a description of it, and then point to every instance of it in the image, making the pointing exhaustive. The resulting PixMo-Points dataset contains 2.3M question-point pairs from 428k images, plus an additional 79k question-answer pairs from 29k images for explanation-based pointing.
我們蒐集的指向資料旨在達成三個目標:(1) 使模型能指向文字所描述的任何物件;(2) 使模型能透過指向來計數;(3) 使模型能在回答問題時將指向作為一種自然的視覺解釋形式。蒐集流程為:請人工標註者在影像中指向某物、撰寫其描述,接著指向影像中該物的所有實例,使指向具備窮舉性。所得的 PixMo-Points 資料集包含來自 428,000 張影像的 230 萬個問題-指向對,另有來自 29,000 張影像的 79,000 個問答對用於解釋式指向。
段落功能
核心能力展示——介紹 Molmo 的指向功能及其資料蒐集方法。
邏輯角色
指向能力是 Molmo 區別於多數 VLM 的獨特功能,此段將其定位為不僅是物件定位工具,更是視覺推理的自然介面——「以指代說」的互動模式。
論證技巧 / 潛在漏洞
三重目標的設定(指向、計數、解釋)展示了指向能力的多面性。「窮舉式指向」的標註策略能確保模型學到完整的物件集合而非僅注意顯著物件。但 230 萬個指向對的品質控管——如標註者是否真正窮舉了所有實例——在大規模標註中是重大挑戰。
This pointing capability represents a distinctive feature of Molmo that sets it apart from most existing VLMs. Rather than requiring specialized object detection heads or bounding box regression modules, Molmo performs pointing by generating normalized (x, y) coordinates as text tokens within its standard language modeling framework. This design choice means that the same model architecture handles both natural language generation and spatial grounding, unifying visual understanding and localization into a single, coherent interface without any task-specific architectural modifications.
此指向能力代表 Molmo 有別於多數現有 VLM 的獨特功能。Molmo 不需要專門的物件偵測頭或邊界框迴歸模組,而是在其標準語言建模框架內,以文字詞元的形式生成正規化的 (x, y) 座標。此設計選擇意味著相同的模型架構同時處理自然語言生成與空間定位,將視覺理解與定位統一至單一且一致的介面中,無需任何特定於任務的架構修改。
段落功能
技術差異化——說明指向功能的實現方式與設計理念。
邏輯角色
此段建立「統一架構」的論述——以座標詞元取代專用偵測頭,與全文「簡潔設計」的主旋律高度一致。
論證技巧 / 潛在漏洞
以文字詞元表示座標的方法優雅且簡潔,但犧牲了偵測精度——專用偵測頭通常能提供次像素級的定位精度,而離散化的文字座標在精度上有其上限。論文未比較此方法與專用偵測頭在定位精度上的差異。
4. Evaluation — 評估
Vision-language model evaluation is evolving rapidly, with new academic benchmarks constantly appearing. As a result, academic benchmarks provide only a partial picture of how a model performs. We evaluate across 11 academic benchmarks including AI2D, ChartQA, VQA v2, DocVQA, InfoVQA, TextVQA, RealWorldQA, MMMU, MathVista, CountBenchQA, and Flickr Count. To complement these benchmarks, we perform a human evaluation that allows us to rank models according to user preference. We collected a diverse set of 15k image and text prompt pairs and queried a set of VLMs for responses, then collected greater than 325k preference ratings (approximately 450 matches per model pair) from approximately 870 human annotators.
視覺語言模型的評估正在快速演變,新的學術基準測試不斷湧現。因此,學術基準僅能提供模型表現的部分面貌。我們在 11 項學術基準上進行評估,包含 AI2D、ChartQA、VQA v2、DocVQA、InfoVQA、TextVQA、RealWorldQA、MMMU、MathVista、CountBenchQA 與 Flickr Count。為補充這些基準的不足,我們進行人類評估以依據使用者偏好對模型進行排名。我們蒐集了 15,000 組多樣化的影像與文字提示配對,向一組 VLM 查詢回答,隨後由約 870 位人類標註者蒐集超過 325,000 筆偏好評分(每對模型約 450 次對決)。
段落功能
評估方法論——建立雙軌評估框架(學術基準 + 人類偏好)。
邏輯角色
此段先承認學術基準的局限性,再引入人類評估作為補充。這種「自我批判再補強」的策略增強了整體評估的可信度。325,000 筆偏好評分的規模也為結論提供了統計上的穩健性。
論證技巧 / 潛在漏洞
承認基準測試的局限性是成熟的學術態度,但也為任何單項基準上的不佳表現預留了退路。人類評估的設計看似嚴謹(870 位標註者、450 次對決/模型對),但評估者的背景、專業程度及提示分布可能影響結果——若提示偏向特定領域,排名可能無法完全反映通用能力。
Key results demonstrate the effectiveness of our approach across model scales. MolmoE-1B, with only 1B active parameters, nearly matches the performance of GPT-4V on academic benchmarks. Molmo-7B-D (based on Qwen2 7B) achieves an average academic benchmark score of 77.3, performing between GPT-4V and GPT-4o. The flagship Molmo-72B achieves the highest academic benchmark score of 81.2 and ranks second in Elo rating, just behind GPT-4o, while outperforming Gemini 1.5 Pro, Gemini 1.5 Flash, and Claude 3.5 Sonnet. On individual benchmarks, Molmo-72B reaches 96.3 on AI2D, 87.3 on ChartQA, 93.5 on DocVQA, and 81.9 on InfoVQA.
關鍵結果在各模型規模上均展現了本方法的有效性。僅有 1B 活躍參數的 MolmoE-1B 在學術基準上幾乎追平 GPT-4V 的表現。基於 Qwen2 7B 的 Molmo-7B-D 達到 77.3 的平均學術基準分數,效能介於 GPT-4V 與 GPT-4o 之間。旗艦級的 Molmo-72B 以 81.2 的最高學術基準平均分數位居前列,在 Elo 排名中名列第二、僅次於 GPT-4o,同時超越 Gemini 1.5 Pro、Gemini 1.5 Flash 與 Claude 3.5 Sonnet。在個別基準上,Molmo-72B 在 AI2D 達到 96.3、ChartQA 達到 87.3、DocVQA 達到 93.5、InfoVQA 達到 81.9。
段落功能
實證支撐——以具體數據驗證 Molmo 在各規模上的競爭力。
邏輯角色
此段是全文實證論述的核心支柱,以量化數據兌現摘要中「與專有系統相匹敵」的承諾。從 1B 到 72B 的規模遞進展示了方法論的可擴展性。
論證技巧 / 潛在漏洞
數據令人印象深刻,但有幾點值得注意:(1) MolmoE-1B「幾乎追平 GPT-4V」的表述中,「幾乎」可能隱藏顯著差距;(2) 11 項基準的「平均」可能掩蓋個別基準上的弱項;(3) Elo 排名第二但與第一的差距大小未明確量化。整體而言,選擇報告有利的比較對象(如較早的 GPT-4V 而非最新的 GPT-4o)是常見的學術策略。
From the preference rankings, we calculated an Elo ranking using the Bradley-Terry model across 27 models. The human evaluation reveals several noteworthy findings. First, model ranking on academic benchmarks does not perfectly correlate with human preference — some models that score well on benchmarks are rated lower by human evaluators, and vice versa. Second, Molmo models consistently rank higher in human evaluation than their academic benchmark scores would suggest, indicating that our training data produces models with strong real-world conversational utility beyond narrow benchmark performance. This suggests that PixMo's human-authored captions may endow models with more natural, user-aligned response patterns.
我們根據偏好排名,使用 Bradley-Terry 模型計算 27 個模型的 Elo 排名。人類評估揭示了數項值得關注的發現。首先,學術基準上的模型排名與人類偏好並不完全相關——部分在基準上得分高的模型在人類評估中排名較低,反之亦然。其次,Molmo 模型在人類評估中的排名一致高於其學術基準分數所暗示的水準,表明我們的訓練資料產出的模型在狹窄基準效能之外,具備強大的真實世界對話實用性。這暗示 PixMo 的人工撰寫說明文字可能賦予模型更自然、更符合使用者期望的回答模式。
段落功能
洞察提煉——從人類評估結果中抽取超越基準分數的深層啟示。
邏輯角色
此段完成了「基準 + 人類評估」雙軌框架的閉環:不僅報告數字,更解釋兩套評估的差異及其意涵。將差異歸因於「人工撰寫說明文字的自然性」,巧妙地將評估結論導向支持核心論點。
論證技巧 / 潛在漏洞
「人類偏好高於基準預期」的發現是有力的論證——它暗示 Molmo 的實際使用體驗優於數字所示。但此推論存在替代解釋:Molmo 可能在回答風格(冗長度、禮貌性)上更符合評估者偏好,而非在視覺理解上更強。風格偏好與能力之間的混淆是 Elo 評估的已知問題。
5. Conclusion — 結論
We have presented Molmo, a family of open vision-language models that demonstrates state-of-the-art performance can be achieved with fully open weights and open data, without reliance on synthetic data from proprietary systems. Our key contribution is the PixMo data ecosystem, anchored by the insight that speech-based image description elicits far richer and more detailed visual annotations than traditional written approaches. By combining this novel caption collection methodology with carefully curated fine-tuning datasets for question answering, document understanding, and spatial pointing, we produce models that are competitive with leading proprietary VLMs across both academic benchmarks and human preference evaluation.
我們提出了 Molmo,一個開放的視覺語言模型家族,證明了在完全開放權重與開放資料的條件下,不依賴專有系統的合成資料,仍可達成最先進效能。我們的核心貢獻是 PixMo 資料生態系統,其錨定於一項洞察:語音式影像描述能比傳統書寫方式引出遠為豐富且詳盡的視覺標註。結合此新穎的說明文字蒐集方法與精心策劃的問答、文件理解及空間指向微調資料集,我們產出的模型在學術基準與人類偏好評估上均與領先的專有 VLM 具備競爭力。
段落功能
總結全文——重申核心貢獻與關鍵洞察。
邏輯角色
結論段呼應摘要的結構,從具體方法回歸至高層命題:開放 VLM 無需依賴專有系統即可達到一流效能。形成完整的論證閉環。
論證技巧 / 潛在漏洞
「不依賴專有系統」的主張在結論中被再次強化,但全文揭示的細節(使用 CLIP 視覺編碼器、LLM 處理轉錄文字)顯示完全的獨立性並非絕對。此外,結論未充分討論局限性——如 PixMo 蒐集流程的成本與可擴展性、語音標註在非英語語言中的適用性,以及模型在安全性與幻覺方面的表現。
Looking forward, our work provides foundational knowledge for the community about how to build performant VLMs from scratch. The speech-based annotation paradigm opens new possibilities for scaling high-quality data collection across diverse languages and domains. The pointing capability suggests a path toward more grounded and interpretable multimodal AI systems, where models can not only describe what they see but also precisely indicate where they see it. By releasing all model weights, data, and code, we aim to accelerate progress toward truly open and reproducible multimodal AI research.
展望未來,我們的工作為社群提供了從零建構高效能 VLM 的基礎知識。語音式標註範式為跨越不同語言與領域的高品質資料蒐集規模化開啟了新的可能性。指向能力則暗示通往更具接地性與可解釋性的多模態人工智慧系統之路徑,使模型不僅能描述所見之物,更能精確指出其位置。透過釋出所有模型權重、資料與程式碼,我們旨在加速真正開放且可複現的多模態人工智慧研究之進展。
段落功能
展望未來——概述研究的廣泛影響與後續方向。
邏輯角色
結尾段將視角從 Molmo 本身擴展至整個 VLM 研究社群,以「開放科學」的宏觀願景收束全文。指向能力被提升至「可解釋 AI」的層次,賦予此技術更深遠的意義。
論證技巧 / 潛在漏洞
「跨語言與領域」的擴展前景引人注目,但語音標註在非英語環境中的可行性尚未驗證——不同語言的語音轉文字品質差異巨大。「可解釋性」的主張也值得謹慎:指向能力提供的是空間定位而非推理過程的透明化,兩者在「可解釋性」的層次上有本質差異。
論證結構總覽
問題
開放 VLM 依賴專有模型
蒸餾,缺乏自主建構知識
開放 VLM 依賴專有模型
蒸餾,缺乏自主建構知識
→
論點
語音式人工標註可產出
高品質獨立訓練資料
語音式人工標註可產出
高品質獨立訓練資料
→
證據
11 項基準 + 325k 筆
人類偏好評估驗證
11 項基準 + 325k 筆
人類偏好評估驗證
→
反駁
簡潔架構 + 開放資料
即可匹敵專有系統
簡潔架構 + 開放資料
即可匹敵專有系統
→
結論
完全開放的 VLM
可達最先進效能
完全開放的 VLM
可達最先進效能
作者核心主張(一句話)
透過語音式人工標註蒐集高品質影像說明文字,結合多樣化的微調資料集,無需依賴專有模型的合成資料,即可從零建構出與 GPT-4o 等頂級專有系統相媲美的開放視覺語言模型。
論證最強處
語音標註的方法論創新:將資料蒐集的瓶頸從「寫作速度」轉換為「口述速度」,巧妙利用人類語音的自然流暢性獲得 3-4 倍的資訊密度提升。此洞察不僅解決了密集說明文字的品質問題,更提供了一個可擴展至其他語言與領域的通用資料蒐集範式。搭配 325,000 筆人類偏好評分的大規模評估,使結論具備高度統計可信度。
論證最弱處
「完全開放」主張的邊界模糊:論文以「不依賴專有系統」為核心敘事,但實際訓練管線中使用了 OpenAI 的 CLIP 視覺編碼器、語音轉文字系統,以及 LLM 進行轉錄文字的後處理。這些組件的「開放」程度不一,使得「從零建構」的主張需加上多重但書。此外,效能最佳的 72B 模型基於 Qwen2(而非完全開放的 OLMo),進一步模糊了「開放」的定義邊界。