JanusFlow：颠覆视觉理解与生成的1.3B大模型

将两种架构融合在一起

JanusFlow：颠覆视觉理解与生成的1.3B大模型革命

原标题：DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成
文章来源：量子位
内容字数：5423字

在多模态AI领域，JanusFlow模型的提出为视觉理解与生成任务的有效统一提供了新的思路。该模型由DeepSeek、北大、香港大学及清华大学的团队合作研发，基于预训练视觉编码器与多模态语言模型（MLLM）相结合的方法，展示了在视觉理解和生成任务上超越现有同规模模型的潜力。

JanusFlow通过将理解框架和生成框架直接融合，实现了端到端的训练。其核心设计包括：

在基础的1.3B规模LLM上，JanusFlow引入了以下组件：

JanusFlow的训练分为三个阶段：Adaptation、Pre-Training和Supervised Fine-Tuning。为了平衡理解与生成能力，预训练阶段采用非对称数据配比策略（理解：生成=2:8）。

通过解耦理解与生成的视觉编码器，JanusFlow能够有效缓解在视觉编码层面的冲突。利用REPA方法进行表征对齐，进一步提升生成任务的收敛效率。

团队进行了六组对照实验，验证了模型各组件的有效性。实验结果表明，采用解耦编码器并使用SigLIP作为理解模块能够显著提升模型在理解和生成任务上的性能。

JanusFlow在多个评测标准上均取得了优异成绩，超越了一些同规模的纯理解模型和生成模型，展现出强劲的竞争力。该模型成功构建了一个统一的视觉理解与生成框架，具有简洁的架构设计。

JanusFlow通过融合自回归LLM与Rectified Flow，显著提升了多模态任务的整体表现，为未来的多模态AI研究提供了新的方向。

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

文章版权归作者所有，未经允许请勿转载。

暂无评论...