摘要 1. 緒論 2. 相關工作 3. 方法 3.2 訓練流程 3.4 推論 4. 實驗 4.5 消融研究 5. 結論 論證總覽

Abstract — 摘要

In this paper, we introduce Janus, an autoregressive framework that unifies multimodal understanding and generation. Prior research often relies on a single visual encoder for both tasks, such as Chameleon. However, due to the differing levels of information granularity required by multimodal understanding and generation, this approach can lead to suboptimal performance, particularly in multimodal understanding. To address this issue, we decouple visual encoding into separate pathways, while still leveraging a single, unified transformer architecture for processing. The decoupling not only alleviates the conflict between the two tasks but also enhances the framework's flexibility. Janus surpasses previous unified models and even outperforms task-specific models in both multimodal understanding and visual generation.
本文提出 Janus,一個統一多模態理解與生成自迴歸框架。先前的研究往往依賴單一視覺編碼器來同時處理兩項任務(如 Chameleon),但由於多模態理解與生成所需的資訊粒度截然不同,此種做法會導致次優的表現,尤其在多模態理解方面。為解決此問題,我們將視覺編碼解耦為獨立路徑,同時仍仰賴一個統一的 Transformer 架構進行處理。此解耦策略不僅緩解了兩項任務之間的衝突,也提升了框架的靈活性。Janus 超越了先前的統一模型,甚至在多模態理解與視覺生成兩方面皆勝過某些任務專用模型
段落功能 全文總覽——以「問題-解法-成果」的遞進結構,從統一模型的困境出發,引出解耦式視覺編碼的核心構想。
邏輯角色 摘要同時承擔「問題界定」與「方案預告」的雙重功能:先指出單一編碼器造成的資訊粒度衝突,再以一句話勾勒 Janus 的解耦策略與統一 Transformer 架構。
論證技巧 / 潛在漏洞 「資訊粒度不同」的論述直覺且具說服力,有效將技術問題轉化為讀者可理解的概念衝突。但「甚至勝過任務專用模型」的宣稱力度極大,需在實驗章節提供充分佐證。

1. Introduction — 緒論

Building a unified model capable of both multimodal understanding and visual generation has been a long-standing goal in AI research. Recent advances in large language models (LLMs) and visual tokenization have made it possible to process both text and images within a single autoregressive framework. However, prior unified approaches such as Chameleon typically use a single vision encoder to process inputs for both understanding and generation tasks. This design choice leads to an inherent conflict: multimodal understanding demands high-dimensional semantic representations that capture abstract concepts, while visual generation requires low-dimensional encoding capable of expressing fine-grained spatial structure and textural detail.
建構一個同時具備多模態理解與視覺生成能力的統一模型,一直是人工智慧研究的長期目標。大型語言模型視覺標記化技術的近期進展,使得在單一自迴歸框架中同時處理文字與影像成為可能。然而,先前的統一方法(如 Chameleon)通常使用單一視覺編碼器來處理理解與生成兩項任務的輸入。此設計選擇導致了一個根本性的衝突:多模態理解需要高維度的語意表示以捕捉抽象概念,而視覺生成則需要能表達精細空間結構與紋理細節的低維度編碼
段落功能 建立研究場域——指出統一多模態模型的願景及其核心技術矛盾。
邏輯角色 論證鏈的起點:先勾勒統一模型的理想願景,再以 Chameleon 為具體案例揭示「單一編碼器」的設計缺陷,為解耦策略建立必要性。
論證技巧 / 潛在漏洞 將「高維語意」對「低維空間細節」的對比框架化為不可調和的衝突,修辭上十分有力。但此二分法可能過度簡化——某些視覺表示(如 CLIP 特徵)兼具語意與空間資訊,並非截然對立。
To address this fundamental tension, we propose Janus, named after the two-faced Roman god who looks simultaneously in opposite directions. The key idea of Janus is to decouple the visual encoding into two independent pathways: a SigLIP vision encoder for multimodal understanding that produces high-level semantic features, and a VQ tokenizer for visual generation that encodes images into discrete tokens suitable for autoregressive prediction. Both pathways feed into a single, unified autoregressive transformer, sharing the same language model backbone. This design preserves the simplicity and scalability of a unified architecture while eliminating the representational conflict between understanding and generation.
為解決此根本性張力,我們提出 Janus——以同時朝向兩個方向的羅馬雙面神命名。Janus 的核心概念是將視覺編碼解耦為兩條獨立路徑:用於多模態理解的 SigLIP 視覺編碼器(產出高階語意特徵),以及用於視覺生成的 VQ 標記器(將影像編碼為適合自迴歸預測的離散標記)。兩條路徑匯入同一個統一的自迴歸 Transformer,共享相同的語言模型骨幹。此設計在保持統一架構的簡潔性與可擴展性的同時,消除了理解與生成之間的表示衝突
段落功能 提出解決方案——以隱喻命名引入 Janus 的雙路徑架構設計。
邏輯角色 承接上段的矛盾陳述,此段扮演「轉折」角色:從「衝突不可避免」轉向「解耦即解決」。SigLIP 直接對應語意需求,VQ 對應空間細節需求,共享 Transformer 保持統一性。
論證技巧 / 潛在漏洞 以羅馬神話命名兼具學術品味與記憶點。但「消除表示衝突」的措辭過於絕對——解耦編碼器後,共享的 Transformer 內部仍可能發生特徵空間的干擾,只是將衝突從編碼層轉移至處理層。
Despite its simplicity, Janus achieves strong performance on both fronts. On multimodal understanding benchmarks, Janus outperforms the previous state-of-the-art unified model with a 41% improvement on MME (949 to 1338) and a 30% improvement on GQA compared to Show-o. On visual generation, Janus achieves a GenEval accuracy of 61%, surpassing SDXL (55%) and DALL-E 2 (52%), and obtains an FID of 8.53 on COCO-30K. Remarkably, these results are achieved with only 1.3 billion parameters, demonstrating the efficiency and effectiveness of the decoupling approach.
儘管設計簡潔,Janus 在兩個方向皆達成卓越表現。在多模態理解基準上,Janus 超越先前最先進的統一模型,相較於 Show-o,MME 提升 41%(由 949 至 1338),GQA 提升 30%。在視覺生成方面,Janus 達到 GenEval 準確率 61%(超越 SDXL 的 55% 與 DALL-E 2 的 52%),且在 COCO-30K 上取得 FID 8.53。值得注意的是,這些成果僅以 13 億參數即可達成,展現了解耦策略的效率與有效性。
段落功能 提供量化佐證——以具體數據預告 Janus 的效能優勢。
邏輯角色 緒論中的「效能預告」段,透過與 Show-o、SDXL、DALL-E 2 的直接比較,預先建立讀者對方法有效性的信心,引導其繼續閱讀方法細節。
論證技巧 / 潛在漏洞 以百分比增幅而非原始數值呈現 MME/GQA 的改善,視覺衝擊力強。但 1.3B 參數的模型與更大規模的專用模型相比仍有差距,作者巧妙地以「統一模型」為比較框架避開了此問題。
Visual generation has witnessed rapid progress through two major paradigms. Diffusion-based methods, including DALL-E 2, Stable Diffusion, and SDXL, generate images through iterative denoising of Gaussian noise, achieving remarkable quality and diversity. In parallel, autoregressive approaches such as DALL-E and Parti treat image generation as next-token prediction over discrete visual tokens, produced by VQ-VAE or VQ-GAN tokenizers. The autoregressive paradigm is particularly attractive for unification because it naturally aligns with the sequential token prediction used in large language models, enabling a shared architectural backbone.
視覺生成領域透過兩大範式取得了快速進展。擴散式方法(包括 DALL-E 2、Stable Diffusion 與 SDXL)透過對高斯雜訊的迭代去噪來生成影像,達成卓越的品質與多樣性。與此平行,自迴歸方法(如 DALL-E 與 Parti)則將影像生成視為對離散視覺標記下一標記預測,這些標記由 VQ-VAE 或 VQ-GAN 標記器產出。自迴歸範式在統一方面特別具吸引力,因為它天然地與大型語言模型所使用的序列標記預測對齊,使得共享架構骨幹成為可能。
段落功能 文獻回顧——概述視覺生成的兩大技術路線及其與統一模型的契合度。
邏輯角色 為 Janus 選擇自迴歸路線提供理論依據:擴散模型雖品質卓越,但自迴歸模型在架構統一性上具備天然優勢。
論證技巧 / 潛在漏洞 將「與 LLM 對齊」作為選擇自迴歸的主要動機,邏輯清晰。但迴避了自迴歸影像生成在品質上通常不如擴散模型的事實,此隱含的品質代價在後文需要被正面處理。
Multimodal large language models (MLLMs) such as LLaVA, InternVL, and Qwen-VL have established a dominant paradigm for multimodal understanding: a pretrained vision encoder (typically CLIP or SigLIP) extracts visual features, which are then projected into the language model's embedding space via an adaptor module. This architecture excels at visual question answering, image captioning, and visual reasoning. Some recent works attempt to extend these understanding models with generation capability by connecting them to pretrained diffusion decoders, but such hybrid approaches introduce additional complexity and lose the elegance of a truly unified model.
多模態大型語言模型(如 LLaVA、InternVL 與 Qwen-VL)已為多模態理解建立了主導性範式:一個預訓練的視覺編碼器(通常為 CLIP 或 SigLIP)擷取視覺特徵,再透過轉接模組投射到語言模型的嵌入空間。此架構在視覺問答、影像描述與視覺推理方面表現出色。部分近期研究嘗試透過將這些理解模型與預訓練的擴散解碼器串聯,以擴展其生成能力,但此類混合方法引入了額外的複雜性,且失去了真正統一模型的優雅性
段落功能 文獻定位——從多模態理解的視角審視現有方案的局限。
邏輯角色 此段建立了 Janus 的另一面血統:繼承 MLLM 的視覺編碼器策略(SigLIP),同時批判「理解+擴散」的混合路線缺乏統一性。
論證技巧 / 潛在漏洞 以「優雅性」作為反對混合模型的論據,帶有美學判斷。但工程實務上,混合模型若效能更佳,「不夠優雅」並非足夠的反對理由。作者需以實驗證明統一方法在效能上同樣不遜色。
The quest for unified multimodal understanding and generation has produced models such as Chameleon, Show-o, and Emu. These approaches typically use a single visual representation for both tasks: Chameleon employs discrete tokens from a VQ tokenizer for both understanding and generation inputs, while Show-o uses a similar shared tokenization scheme. However, this single-encoder paradigm creates an inherent bottleneck: optimizing the visual encoder for generation quality (requiring fine spatial details) inevitably degrades understanding performance (requiring high-level semantics), and vice versa. Janus addresses this by maintaining separate, task-optimized visual encoders while sharing the transformer backbone.
追求統一多模態理解與生成的研究已產出 Chameleon、Show-o 與 Emu 等模型。這些方法通常對兩項任務使用單一視覺表示:Chameleon 對理解與生成輸入均採用 VQ 標記器的離散標記,Show-o 則使用類似的共享標記化方案。然而,此單一編碼器範式造成了固有的瓶頸:針對生成品質最佳化視覺編碼器(需要精細空間細節)不可避免地會降低理解效能(需要高階語意),反之亦然。Janus 透過維持獨立的任務最佳化視覺編碼器,同時共享 Transformer 骨幹來解決此問題。
段落功能 批判最直接的競爭者——系統性指出單一編碼器統一模型的核心缺陷。
邏輯角色 論證鏈中的「問題深化」:將緒論中提出的「資訊粒度衝突」具體化為 Chameleon 與 Show-o 的實際效能瓶頸,為 Janus 的解耦策略提供最直接的對比基礎。
論證技巧 / 潛在漏洞 「最佳化一方必然降低另一方」的論述帶有零和博弈的暗示,但實際上適當的多任務學習策略(如梯度平衡)可能緩解此衝突而非完全消除。作者將問題框架化為不可調和的,以凸顯解耦的必要性。

3. Method — 方法

3.1 Architecture — 架構

The Janus architecture consists of four key components. For multimodal understanding, images are processed by a SigLIP-Large-Patch16-384 vision encoder, which produces dense semantic feature maps. These features pass through an understanding adaptor (a linear projection layer) that maps them into the language model's embedding space. For visual generation, images are tokenized by a VQ tokenizer with a codebook of 16,384 entries and 16x downsampling, converting each image into a sequence of discrete codes. These codes pass through a separate generation adaptor (an embedding lookup layer). Both adapted representations are then processed by a unified autoregressive transformer based on DeepSeek-LLM (1.3B parameters).
Janus 架構由四個關鍵組件組成。在多模態理解方面,影像由 SigLIP-Large-Patch16-384 視覺編碼器處理,產出密集的語意特徵圖。這些特徵經由理解轉接器(一個線性投射層)映射至語言模型的嵌入空間。在視覺生成方面,影像由 VQ 標記器(具有 16,384 個碼本條目與 16 倍下採樣)進行標記化,將每張影像轉換為一序列離散編碼。這些編碼經由獨立的生成轉接器(一個嵌入查找層)處理。兩種經轉接的表示接續由基於 DeepSeek-LLM(13 億參數)的統一自迴歸 Transformer 處理。
段落功能 架構全貌——逐一介紹 Janus 的四大組件及其技術規格。
邏輯角色 此段是整個方法的基石。SigLIP 對應語意需求、VQ 對應空間需求的設計,直接回應了緒論中提出的粒度衝突。共享 Transformer 則維持了「統一」的承諾。
論證技巧 / 潛在漏洞 架構描述清晰且模組化,每個組件的設計動機都可追溯至前文的問題陳述。但 SigLIP 與 VQ 標記器的特徵維度差異如何在共享 Transformer 中和諧共存,尚未被充分討論——兩種截然不同的表示共享同一注意力機制是否會產生干擾。
The critical insight behind the decoupling is that multimodal understanding and visual generation impose fundamentally different requirements on visual encoding. Understanding tasks require a high-dimensional, semantically rich representation where spatial locality is less important than capturing object categories, relationships, and scene context. Generation tasks, in contrast, require a spatially precise, low-level representation that preserves fine-grained details such as textures, edges, and color distributions. By decoupling the encoding while sharing the processing backbone, Janus allows each encoder to be independently optimized for its specific task without compromise.
解耦背後的關鍵洞察在於:多模態理解與視覺生成對視覺編碼施加了根本不同的需求。理解任務需要高維度且語意豐富的表示,其中空間局部性的重要性低於捕捉物件類別、關係與場景脈絡。相反地,生成任務需要空間精確的低階表示,以保留紋理、邊緣與色彩分布等精細細節。透過解耦編碼且共享處理骨幹,Janus 允許每個編碼器獨立地針對其特定任務進行最佳化而無需妥協。
段落功能 理論闡述——深入剖析解耦策略的認識論基礎。
邏輯角色 此段將直覺式的「粒度不同」論述上升為系統性的分析:從語意豐富度 vs. 空間精確度的對立,推導出解耦的必然性。這是全文論證的理論核心。
論證技巧 / 潛在漏洞 論述嚴謹且具說服力,但「無需妥協」的絕對性措辭值得審視。共享 Transformer 的容量有限,兩種任務仍會競爭模型的表達能力。解耦僅將衝突從編碼層移至處理層,並非完全消除。

3.2 Training Procedure — 訓練流程

Janus adopts a three-stage training procedure. In Stage I (Adaptor Training), only the understanding and generation adaptors along with the image head are trained, while the vision encoders and LLM backbone remain frozen. This stage establishes the mapping between visual representations and the shared embedding space. In Stage II (Unified Pretraining), the entire model is trained end-to-end on a mixture of text-only, multimodal understanding, and visual generation data, enabling cross-task knowledge transfer within the shared transformer. In Stage III (Supervised Fine-tuning), the model is fine-tuned with instruction-following data to align with user intent for both understanding and generation tasks.
Janus 採用三階段訓練流程第一階段(轉接器訓練)僅訓練理解與生成轉接器以及影像頭,視覺編碼器與語言模型骨幹保持凍結。此階段建立視覺表示與共享嵌入空間之間的映射第二階段(統一預訓練)對整個模型進行端到端訓練,混合使用純文字、多模態理解與視覺生成資料,實現共享 Transformer 內的跨任務知識遷移第三階段(監督式微調)指令遵循資料對模型進行微調,使其在理解與生成任務上皆能對齊使用者意圖。
段落功能 訓練策略——詳述由淺入深的三階段漸進式訓練方案。
邏輯角色 三階段設計呼應了多模態訓練的標準實踐(凍結-解凍-微調),但特殊之處在於第二階段的混合資料訓練,這是「統一」目標在訓練流程中的具體體現。
論證技巧 / 潛在漏洞 分階段訓練是成熟的工程策略,降低了訓練的不穩定性。但第二階段的資料混合比例如何決定、不同任務的梯度是否會互相干擾等關鍵實作細節未被充分闡述。

3.3 Training Objective — 訓練目標

Janus is an autoregressive model, and the training simply adopts the cross-entropy loss. For multimodal understanding, the loss is computed on the text response tokens, given the image features and text prompt as context. For visual generation, the loss is computed on the image token sequence, conditioned on the text description. Notably, the two tasks share the same loss function and the same next-token prediction paradigm, which is key to maintaining architectural simplicity. The understanding loss and generation loss are simply summed without task-specific weighting, relying on the natural data ratio to balance the two objectives.
Janus 作為自迴歸模型,訓練僅採用交叉熵損失。在多模態理解方面,損失計算於文字回應標記上,以影像特徵與文字提示為上下文。在視覺生成方面,損失計算於影像標記序列上,以文字描述為條件。值得注意的是,兩項任務共享相同的損失函數與下一標記預測範式,此為維持架構簡潔性的關鍵。理解損失與生成損失僅以簡單加總合併而無任務專用的加權,依賴自然的資料比例來平衡兩項目標。
段落功能 技術細節——闡明損失函數的設計哲學與計算方式。
邏輯角色 強調「簡潔性」是 Janus 的設計原則:同一損失函數、同一預測範式、無需手動平衡權重。這與解耦編碼器的「分而治之」形成互補——前端分離、後端統一。
論證技巧 / 潛在漏洞 「無需任務加權」的主張大幅降低了超參數搜索的負擔,但也意味著資料比例成為隱含的平衡機制。若某一任務的資料量顯著多於另一任務,可能導致隱性的偏倚,此風險未被討論。

3.4 Inference — 推論

During inference, Janus operates in two modes depending on the task. For multimodal understanding, the image is encoded by SigLIP into visual tokens, concatenated with the text query, and the model autoregressively generates text tokens as the response. For visual generation, the text prompt is processed first, and the model autoregressively predicts discrete image tokens, which are then decoded by the VQ tokenizer's decoder into pixel space. To improve generation quality, classifier-free guidance (CFG) is applied with a default scale parameter of 5. The unified inference pipeline requires no task-specific heads or routing mechanisms beyond the initial encoding pathway selection.
推論階段,Janus 依據任務以兩種模式運作。在多模態理解中,影像由 SigLIP 編碼為視覺標記,與文字查詢串接後,模型自迴歸地生成文字標記作為回應。在視覺生成中,先處理文字提示,接著模型自迴歸地預測離散影像標記,再由 VQ 標記器的解碼器將其解碼至像素空間。為提升生成品質,採用無分類器引導(CFG)預設尺度參數為 5。此統一推論管線除初始的編碼路徑選擇外,無需任務專用的預測頭或路由機制
段落功能 實務細節——說明推論階段的兩種運作模式與增強技巧。
邏輯角色 此段展示 Janus 在推論階段的「統一性」:同一個模型、同一個前向傳遞流程,僅透過輸入格式決定任務類型。CFG 的引入則是對自迴歸生成品質的工程補強。
論證技巧 / 潛在漏洞 「無需路由機制」的強調凸顯了架構的簡潔性。但 CFG 需要對模型進行條件與無條件的兩次前向傳遞,事實上將推論成本加倍——此計算開銷的代價未被明確提及。

3.5 Possible Extensions — 可能的擴展

The decoupled design of Janus offers natural extensibility along multiple dimensions. The understanding encoder can be upgraded to stronger vision models such as EVA-CLIP or InternViT without affecting the generation pathway. Similarly, the generation tokenizer can be replaced with finer-grained encoders that support higher resolutions or continuous representations. The framework can also accommodate dynamic resolution handling by adapting the understanding encoder's input processing. Furthermore, additional modalities such as audio, video, or 3D data can be incorporated by adding new encoding pathways with dedicated adaptors, each independently optimized for its modality-specific requirements while sharing the same transformer backbone.
Janus 的解耦設計在多個維度上提供了天然的可擴展性。理解編碼器可升級為更強的視覺模型(如 EVA-CLIP 或 InternViT)而不影響生成路徑。同樣地,生成標記器可替換為支援更高解析度或連續表示的更精細編碼器。此框架亦能透過調適理解編碼器的輸入處理來容納動態解析度處理。此外,音訊、影片或三維資料等額外模態可藉由新增具有專用轉接器的編碼路徑來納入,每條路徑獨立地為其模態需求最佳化,同時共享相同的 Transformer 骨幹。
段落功能 展望擴展——勾勒 Janus 架構的未來發展潛力。
邏輯角色 此段為 Janus 的解耦設計提供額外的正當性:不僅解決當下的衝突,更為未來的模態擴展奠定基礎,提升論文的影響力論述。
論證技巧 / 潛在漏洞 將「可擴展性」作為解耦設計的附加價值,論證策略聰明。但這些擴展均為未經驗證的推測——特別是多模態共享一個 Transformer 在規模擴展時是否會遇到容量瓶頸,尚無實驗支撐。

4. Experiments — 實驗

Janus is built upon DeepSeek-LLM with 1.3 billion parameters and a context length of 4096 tokens. The understanding encoder is SigLIP-Large-Patch16-384, processing images at 384 x 384 resolution. The generation encoder uses a VQ tokenizer with a codebook size of 16,384 and 16x spatial downsampling. Training is conducted on 128 NVIDIA A100 GPUs (16 nodes x 8 GPUs) for approximately 7 days. The training data spans three stages: Stage I uses ShareGPT4V caption data and ImageNet-1k, Stage II incorporates WikiHow, WIT, and various large-scale caption datasets totaling millions of samples, and Stage III uses curated instruction-following data for both tasks.
Janus 建構於具有 13 億參數的 DeepSeek-LLM 之上上下文長度為 4096 個標記。理解編碼器為 SigLIP-Large-Patch16-384,以 384 x 384 解析度處理影像。生成編碼器使用碼本大小 16,384 且空間下採樣 16 倍的 VQ 標記器。訓練在 128 張 NVIDIA A100 GPU(16 節點 x 8 GPU)上進行,歷時約 7 天。訓練資料橫跨三個階段:第一階段使用 ShareGPT4V 描述資料與 ImageNet-1k,第二階段納入 WikiHow、WIT 及各種大規模描述資料集共計數百萬筆樣本,第三階段使用為兩項任務策劃的指令遵循資料。
段落功能 實作規格——提供完整的訓練配置與資源消耗資訊。
邏輯角色 此段為可重現性服務:參數量、GPU 配置、訓練時長與資料集的詳細記載,使其他研究者得以評估方法的實際成本與可行性。
論證技巧 / 潛在漏洞 128 張 A100 訓練 7 天的計算成本雖在大模型研究中屬中等,但仍遠超多數學術實驗室的能力。作者以 1.3B 的「小」參數量暗示效率,但計算資源需求仍不可忽視。
On multimodal understanding benchmarks, Janus demonstrates substantial improvements over prior unified models. Compared to the previous best unified model Show-o, Janus achieves POPE 87.0 (vs. Show-o's comparable score), MMBench 69.4, and SEED-Bench 63.7. On the comprehensive MME benchmark, Janus scores 1338, a 41% improvement over Show-o's 949. On GQA, Janus achieves a 30% improvement over Show-o. Remarkably, Janus even outperforms some task-specific understanding models that do not handle generation at all, demonstrating that the decoupled encoding eliminates the understanding performance penalty typically associated with unified models.
多模態理解基準上,Janus 相較於先前的統一模型展現顯著提升。與先前最佳統一模型 Show-o 相比,Janus 達到 POPE 87.0、MMBench 69.4 與 SEED-Bench 63.7。在綜合性的 MME 基準上,Janus 取得 1338 分,較 Show-o 的 949 分提升 41%。在 GQA 上,Janus 達到較 Show-o 30% 的提升。值得注意的是,Janus 甚至超越了某些完全不處理生成的任務專用理解模型,證明解耦式編碼消除了統一模型通常伴隨的理解效能損失
段落功能 量化驗證(理解端)——以多項基準數據證實 Janus 在理解方面的優勢。
邏輯角色 實驗驗證的第一面:直接回應「解耦是否改善理解」的核心問題。MME 的 41% 提升是最有力的數據點,支撐了整篇論文的核心論點。
論證技巧 / 潛在漏洞 百分比增幅的呈現方式最大化了視覺衝擊。但值得注意的是比較對象主要為其他統一模型而非頂尖的純理解模型——與 LLaVA-1.5、InternVL 等參數量更大的專用模型相比,差距可能仍然存在。
On visual generation benchmarks, Janus achieves competitive results against both unified and task-specific models. On the GenEval benchmark, which evaluates compositional text-to-image generation, Janus achieves an overall accuracy of 61%, surpassing SDXL (55%) and DALL-E 2 (52%). On MSCOCO-30K, Janus obtains an FID of 8.53, demonstrating competitive image quality. On the MJHQ-30K aesthetic quality benchmark, Janus achieves an FID of 10.10. These results are particularly notable given that Janus uses only 1.3B parameters, while competing generation models like SDXL employ significantly larger architectures. Qualitative examples further reveal that Janus exhibits superior instruction-following capability and emergent multilingual generation despite being trained on English-only generation data.
視覺生成基準上,Janus 對統一模型與任務專用模型皆達到具競爭力的結果。在評估組合式文字轉影像生成的 GenEval 基準上,Janus 達到 61% 的整體準確率,超越 SDXL(55%)與 DALL-E 2(52%)。在 MSCOCO-30K 上取得 FID 8.53,展現具競爭力的影像品質。在 MJHQ-30K 美學品質基準上,Janus 達到 FID 10.10。這些成果在 Janus 僅使用 13 億參數的前提下尤為突出,而 SDXL 等競爭生成模型則採用明顯更大的架構。定性範例進一步揭示,儘管 Janus 僅以英文生成資料訓練,卻展現出卓越的指令遵循能力與新興的多語言生成能力
段落功能 量化驗證(生成端)——以多項指標證實 Janus 的生成品質具競爭力。
邏輯角色 實驗驗證的第二面:證明解耦不僅改善了理解,生成品質也未受損。GenEval 超越 SDXL 是關鍵數據,證實了自迴歸生成在組合性上的優勢。
論證技巧 / 潛在漏洞 以小參數量超越大模型的敘事極具說服力。但 FID 僅衡量分布層級的品質,無法反映個別影像的細節保真度。GenEval 著重組合性而非整體視覺品質,作者可能策略性地選擇了最有利的基準。

4.5 Ablation Studies — 消融研究

Comprehensive ablation experiments validate the effectiveness of the decoupled design. First, a single VQ tokenizer baseline (using VQ tokens for both understanding and generation, as in Chameleon) shows significantly degraded understanding performance, confirming that discrete visual tokens lack the semantic richness needed for comprehension. Second, a semantic tokenizer baseline (using SigLIP features for both tasks) shows better understanding but degraded generation quality, confirming that high-level features lack spatial precision. Third, the full decoupled Janus achieves optimal performance on both tasks simultaneously. Additionally, comparing understanding-only and generation-only training variants with the unified model reveals that unified training achieves performance comparable to task-specific training, demonstrating that the two tasks do not interfere when properly decoupled.
全面的消融實驗驗證了解耦設計的有效性。首先,單一 VQ 標記器基線(如 Chameleon 般以 VQ 標記同時用於理解與生成)呈現顯著退化的理解效能,確認離散視覺標記缺乏理解所需的語意豐富度。其次,語意標記器基線(以 SigLIP 特徵同時用於兩項任務)雖展現較佳的理解能力,卻導致生成品質退化,確認高階特徵缺乏空間精確度。再者,完整的解耦式 Janus 在兩項任務上同時達到最優表現。此外,比較僅理解與僅生成的訓練變體與統一模型,揭示統一訓練達到與任務專用訓練相當的效能,證明在適當解耦後兩項任務不會相互干擾。
段落功能 因果驗證——透過系統性消融逐一確認各設計選擇的必要性。
邏輯角色 此段是全文最具說服力的論證環節:三組對照實驗直接對應三個替代方案(VQ only、SigLIP only、Decoupled),加上「統一 vs. 專用」的額外對照,形成嚴密的因果推論鏈。
論證技巧 / 潛在漏洞 消融設計周全且邏輯清晰,是本文論證最穩固的部分。但「不會相互干擾」的結論僅基於 1.3B 模型的實驗,隨著任務複雜度或資料規模增加,共享 Transformer 的容量限制可能使此結論不再成立。

5. Conclusion — 結論

In this paper, we introduced Janus, a simple, unified, and extensible multimodal understanding and generation model. The core idea of Janus is to decouple visual encoding for multimodal understanding and generation, which alleviates the conflict arising from the differing demands that the two tasks place on the visual encoder. By maintaining independent, task-optimized encoding pathways while sharing a unified autoregressive transformer backbone, Janus achieves state-of-the-art performance among unified models and competitive results against task-specific models. We believe the decoupling principle is broadly applicable to future multimodal model designs and that the extensibility of Janus's architecture positions it well for incorporating additional modalities and scaling to larger model sizes.
本文提出 Janus,一個簡潔、統一且可擴展的多模態理解與生成模型。Janus 的核心理念是解耦多模態理解與生成的視覺編碼,以緩解兩項任務對視覺編碼器施加之不同需求所產生的衝突。透過維持獨立的任務最佳化編碼路徑,同時共享統一的自迴歸 Transformer 骨幹,Janus 在統一模型中達到最先進的效能,並與任務專用模型取得具競爭力的結果。我們相信解耦原則廣泛適用於未來的多模態模型設計,且 Janus 架構的可擴展性使其在納入額外模態與擴展至更大模型規模方面具備良好條件。
段落功能 總結全文——重申核心貢獻並提出解耦原則的普遍適用性。
邏輯角色 結論段精確地呼應摘要的結構:問題(衝突)-> 方案(解耦)-> 成果(效能)-> 展望(擴展性),形成完整的論證閉環。
論證技巧 / 潛在漏洞 「簡潔、統一且可擴展」三重修飾精煉地概括了方法的定位。但結論未充分討論局限性——如 VQ 標記器的品質上限、自迴歸生成在高解析度下的速度瓶頸,以及解耦策略在更大規模模型上是否仍然必要等開放問題。

論證結構總覽

問題
單一視覺編碼器
無法同時滿足理解與生成
論點
解耦視覺編碼
消除粒度衝突
證據
MME +41%、GenEval 61%
消融研究三組驗證
反駁
統一訓練不遜於
任務專用訓練
結論
解耦原則廣泛適用
於多模態模型設計

作者核心主張(一句話)

將多模態理解與生成的視覺編碼解耦為獨立路徑(SigLIP + VQ),同時共享一個統一的自迴歸 Transformer 骨幹,能在不犧牲任一任務的前提下同時達成卓越的理解與生成效能。

論證最強處

消融研究的因果推論鏈:三組對照實驗(VQ only / SigLIP only / Decoupled)系統性地排除了替代方案,加上「統一 vs. 專用」的額外對照證實兩任務無干擾,形成了嚴密的因果證據。以僅 1.3B 參數超越 SDXL 與 DALL-E 2 的 GenEval 成績,進一步凸顯了架構設計的效率。

論證最弱處

共享 Transformer 的容量隱憂:解耦僅發生在編碼層,共享 Transformer 內部兩種截然不同的表示仍可能競爭模型容量。當前 1.3B 的實驗規模無法排除在更大資料量或更複雜任務下出現干擾的可能性。此外,與頂尖專用模型的比較不夠全面——生成端未與 Stable Diffusion 3 等最新方法對照,理解端未與 70B 級別的 MLLM 比較。

Thesis 核心論點
Concept 關鍵概念
Evidence 實證證據
Rebuttal 讓步反駁
Method 方法論