JanusFlow:颠覆视觉理解与生成的1.3B大模型革命

AIGC动态12小时前发布 量子位
0 0 0

将两种架构融合在一起

JanusFlow:颠覆视觉理解与生成的1.3B大模型革命

原标题:DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成
文章来源:量子位
内容字数:5423字

JanusFlow:统一视觉理解与生成的多模态模型

在多模态AI领域,JanusFlow模型的提出为视觉理解与生成任务的有效统一提供了新的思路。该模型由DeepSeek、北大、香港大学及清华大学的团队合作研发,基于预训练视觉编码器与多模态语言模型(MLLM)相结合的方法,展示了在视觉理解和生成任务上超越现有同规模模型的潜力。

1. 模型架构

JanusFlow通过将理解框架和生成框架直接融合,实现了端到端的训练。其核心设计包括:

  • 采用解耦的视觉编码器,分别优化理解与生成能力。
  • 利用理解端编码器对生成端特征进行表征对齐,提升训练效率。

2. 关键组件

在基础的1.3B规模LLM上,JanusFlow引入了以下组件:

  • 视觉理解编码器:使用SigLIP将输入图片转换为视觉嵌入,专注于视觉理解。
  • 视觉生成编解码器:基于SDXL-VAE的轻量级模块,编码器和解码器均采用双层ConvNeXt Block处理特征。
  • 注意力机制:统一采用因果注意力处理理解与生成任务,提高模型效率。

3. 训练策略

JanusFlow的训练分为三个阶段:Adaptation、Pre-Training和Supervised Fine-Tuning。为了平衡理解与生成能力,预训练阶段采用非对称数据配比策略(理解:生成=2:8)。

4. 解耦与表征对齐

通过解耦理解与生成的视觉编码器,JanusFlow能够有效缓解在视觉编码层面的冲突。利用REPA方法进行表征对齐,进一步提升生成任务的收敛效率。

5. 消融实验

团队进行了六组对照实验,验证了模型各组件的有效性。实验结果表明,采用解耦编码器并使用SigLIP作为理解模块能够显著提升模型在理解和生成任务上的性能。

6. 实验结果与评价

JanusFlow在多个评测标准上均取得了优异成绩,超越了一些同规模的纯理解模型和生成模型,展现出强劲的竞争力。该模型成功构建了一个统一的视觉理解与生成框架,具有简洁的架构设计。

总结

JanusFlow通过融合自回归LLM与Rectified Flow,显著提升了多模态任务的整体表现,为未来的多模态AI研究提供了新的方向。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...