Mogao

Mogao – 字节跳动Seed团队推出的多模态理解与生成统一架构

Mogao

Mogao是什么

Mogao是字节跳动Seed团队推出的一款交错多模态生成基础模型。它采用了双视觉编码器架构,结合变分自编码器(VAE)和视觉变换器(ViT),在视觉理解和图像生成的上下文对齐方面表现出色。Mogao引入交错旋转位置嵌入(IL-RoPE),有效捕捉图像的二维空间位置信息以及多模态数据的时间位置关系,并通过多模态无分类器引导技术进一步提升生成质量与一致性。

Mogao的主要功能

  • 多模态理解与生成:Mogao能够处理文本与图像的交错序列,实现优质的多模态理解与生成。在给定文本描述的情况下,能够生成高质量的图像,同时也可以基于图像生成相关的文本内容。在多模态理解任务中,文本标记关注历史序列中的视觉变换器(ViT)标记与文本标记,从而更深入地理解图像内容。
  • 零样本图像编辑与组合生成:Mogao展现出强大的零样本图像编辑能力,无需额外训练即可修改和编辑图像。具备组合生成能力,能够将不同元素有效组合,生成具有高度一致性和连贯性的全新图像。
  • 高质量图像生成:在图像生成方面,Mogao表现卓越,涵盖真实感、图形设计、动漫和插图等多种风格,支持最高2K分辨率的图像生成,能够制作出高细节、高质量的图像。
  • 文本渲染能力:Mogao在文本渲染方面有显著进步,文本可用率高达94%,有效解决了以往图像生成中中文文本渲染的难题。

Mogao的技术原理

  • 双视觉编码器:Mogao运用变分自编码器(VAE)与视觉变换器(ViT)作为视觉编码器。在图像作为条件输入时,提取VAE与ViT的视觉特征,并将其附加到历史序列中。对于多模态理解任务,文本标记仅关注ViT标记及文本标记;对于多模态生成任务,噪声VAE标记则会关注历史序列中的所有标记。
  • 深度融合架构:基于预训练的大语言模型(LLM),Mogao使用统一的自注意力层同时处理视觉与文本序列,前馈网络(FFN)中则采用不同的多层感知机(MLP)来分别处理视觉与文本模态。
  • 交错旋转位置嵌入(IL-RoPE):该技术用于捕捉图像的二维空间位置信息及多模态数据的时间位置关系,使模型能够更好地处理交错的文本与图像序列。
  • 混合分辨率训练:在不同宽高比及分辨率的图像上进行预训练与微调,从低分辨率(如256²)到高分辨率(如2048²),引入尺寸嵌入,使模型能够感知目标分辨率。
  • 跨模态RoPE:将文本token视作二维token,应用二维RoPE,进一步增强视觉与文本token的对齐效果。
  • 后训练阶段:包括持续训练(CT)、监督微调(SFT)、人工反馈对齐(RLHF)和提示工程(PE),以提升模型的性能和可控性。
  • 缺陷感知型训练范式:引入缺陷检测器,精确定位缺陷区域,通过掩码隐含空间优化,有效扩展训练数据集。
  • Hyper-SD与RayFlow:优化生成路径,引导每个数据点至特定实例的目标分布,减少路径碰撞,提高生成稳定性和样本多样性。
  • 重要性采样机制:学习在训练过程中关注最关键的时间步,支持高效的少步数采样,确保生成质量不受影响。

Mogao的项目地址

Mogao的应用场景

  • 内容创作:Mogao能够根据文本描述生成高质量图像,也可以根据图像生成相关文本描述,助力创作者实现灵感转化。
  • 智能助手:Mogao结合语音、图像和文本等多种模态,实现更自然、更智能的人机交互体验。
  • 图像和文本的相互检索:用户可以通过输入文本描述来查找相关图像,或通过上传图像获取相关文本描述,提升信息检索效率。
  • 虚拟现实与增强现实:Mogao可以用于生成虚拟环境和互动元素,增强虚拟现实和增强现实的用户体验。
  • 医疗影像分析:Mogao能够将不同模态的医疗影像(如MRI、CT、超声波等)与文本描述相结合,提升疾病诊断的准确性和早期发现能力。

常见问题

  • Mogao支持哪些输入格式? Mogao支持文本和图像的交错输入,用户可以灵活选择输入内容。
  • 生成的图像质量如何? Mogao可生成高达2K分辨率的图像,细节表现优异,适用于多种风格。
  • 使用Mogao需要专业知识吗? 不需要,Mogao设计为用户友好,适合各类用户使用。
  • 如何访问Mogao的更多信息? 可以访问Mogao的项目地址,查阅相关技术论文和应用示例。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...