EliGen

EliGen – 浙大联合阿里推出的新型实体级可控图像生成框架

EliGen是一款由浙江大学与阿里巴巴集团共同研发的创新型实体级可控图像生成框架。它通过引入区域注意力机制,能够将实体提示与任意形状的空间掩码无缝集成到扩散变换器中,且无需额外参数。此外,EliGen还包含一个包含50万高质量注释样本的数据集,旨在训练出具有高鲁棒性和准确性的图像生成模型。

EliGen是什么

EliGen是浙江大学与阿里巴巴集团联合开发的一种新型实体级可控图像生成框架。该框架通过引入区域注意力机制,能够在不增加额外参数的情况下,将实体提示与任意形状的空间掩码无缝集成到扩散变换器中。EliGen涵盖了50万高质量注释样本的数据集,旨在训练出鲁棒且精确的实体级操控能力。此外,EliGen还提出了修复融合管道,能够扩展至多实体图像修复任务。

EliGen

EliGen的主要功能

  • 实体级精确控制:EliGen利用区域注意力机制,能够对图像中的每个实体进行精准的控制,包括其位置、形状和语义属性。
  • 多实体图像修复:EliGen采用了修复融合管道,使其能够在单次前向传递中对多个实体进行修复,极大提升了多实体图像修复的效率。
  • 风格化实体控制:结合IP-Adapter,EliGen能够根据参考图像的风格生成目标图像,实现个性化的风格化实体控制。
  • 交互式图像设计与编辑:通过与多模态语言模型(MLLM)的集成,EliGen能够基于用户的对话进行图像设计与编辑,用户可以通过文本描述生成或修改图像。
  • 与社区模型集成:EliGen支持与开源模型如IP-Adapter、In-Context LoRA和MLLM无缝集成,拓展了创意的可能性,包括风格化实体控制、实体转移及基于对话的图像设计与编辑。
  • 强大的泛化能力:EliGen在不同随机种子、变化的实置以及不合理的位置输入下,依然能够保持良好的泛化能力,生成高质量且符合要求的图像。

EliGen的技术原理

  • 区域注意力机制:EliGen引入的区域注意力机制扩展了扩散变换器(DiT)的注意力模块,能够处理各种形状的实体掩码。通过结合全局提示与局部提示,形成扩展提示序列,并基于空间条件构建联合注意力掩码(包括实体间和实体内掩码),无需额外参数便可实现实体细节的调整。
  • 高质量数据集构建:为了训练EliGen,研究团队构建了包含50万个高质量注释样本的数据集。这些样本通过Flux生成图像,并基于Qwen2-VL视觉语言模型进行全面的提示与实体信息标注,确保模型在实体级操控中的鲁棒性与准确性。
  • 训练与微调:EliGen采用低秩适应(LoRA)方法进行高效微调,确保模型快速收敛。LoRA权重应用于DiT的每个块的线性层,包括注意力层的投影层和自适应LayerNorm内的线性层。
  • 修复融合管道:EliGen提出的修复融合管道专门用于多实体图像修复任务,基于区域的噪声融合操作使其能够在一次前向传递中修复多个实体,同时保持非修复区域的图像质量。

EliGen的项目地址

EliGen的应用场景

  • 虚拟场景生成:EliGen能够生成高质量的虚拟场景,支持任意形状掩码的实体控制,适合用于虚拟现实和游戏开发中的场景设计。
  • 角色与道具设计:用户可以精准控制角色和道具的形状、位置和风格,为虚拟世界中的角色和道具设计提供强大支持。
  • 大规模定制数据合成:EliGen的任意形状掩码控制能力使其能够高效生成大规模定制化的数据,适用于数据增强和机器学习任务。
  • 产品展示与宣传:EliGen可以生成高质量的产品展示图像,支持精准的实体控制和风格化设计,满足广告和产品设计的多样需求。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...