CreatiLayout

CreatiLayout – 复旦和字节联合推出创新的布局到图像生成技术

CreatiLayout是什么

CreatiLayout 是由复旦大学与字节跳动合作开发的一项前沿技术,旨在实现从布局到图像的生成(Layout-to-Image,L2I)。该技术依托于一套庞大的布局数据集 LayoutSAM,该数据集包括 270 万图像-文本配对及 1070 万个详细的实体标注,涵盖颜色、形状、纹理等多种属性。CreatiLayout 的核心架构为 SiamLayout,采用了独特的方式将布局信息视作一种的模态,并通过 MM-DiT 的 MM-Attention 机制促成布局与图像模态之间的互动,有效地解决了模态竞争的问题。此外,CreatiLayout 还配备了 LayoutDesigner,借助大语言模型帮助用户生成和优化布局,支持多种输入形式,包括中心点、掩码、草图和文本描述等。

CreatiLayout

CreatiLayout的主要功能

  • 高质量图像生成:基于孪生多模态扩散变换器(Siamese Multimodal Diffusion Transformer),CreatiLayout 能够生成高质量且细致可控的图像,能够精准渲染复杂的属性,如颜色、纹理和形状。
  • 布局生成与优化:通过 LayoutDesigner,CreatiLayout 可以根据用户输入的不同形式(例如中心点、掩码、草图、文本描述等)生成和优化布局,允许用户灵活表达设计意图,创造和谐美观的布局效果。
  • 大规模数据集支持:CreatiLayout 构建了名为 LayoutSAM 的大规模布局数据集,涵盖 270 万图像-文本对及 1070 万个实体标注,为模型的训练和优化提供了丰富的数据基础。
  • 多模态交互:在技术架构上,CreatiLayout 将布局信息视为一种模态,通过 MM-DiT 的 MM-Attention 实现布局模态与图像模态的有效交互。

CreatiLayout的技术原理

  • 孪生多模态扩散变换器:CreatiLayout 基于这种变换器实现高质量且细致可控的图像生成,能够高效处理包括图像、文本和布局信息在内的多模态数据。
  • SiamLayout 框架:该框架将布局信息视为模态,与文本和图像模态同等重要。通过 MM-DiT 的 MM-Attention 机制,布局模态与图像模态之间的交互得以实现,从而减轻模态竞争的问题,增强布局对图像生成的指导作用。具体而言,图像、文本和布局三种模态的交互被解耦为两个的分支:图像-文本交互分支与图像-布局交互分支,使得文本与布局对图像内容的指导各自发挥作用而互不干扰。
  • LayoutDesigner:基于大型语言模型进行布局规划和优化,支持用户通过多种输入形式(如中心点、掩码、草图、文本描述等)生成和优化布局。

CreatiLayout的项目地址

CreatiLayout的应用场景

  • 宣传海报制作:设计师可以借助 CreatiLayout 快速生成符合要求的高质量宣传海报。
  • 家具摆放优化:CreatiLayout 能够精准解析家具的位置和尺寸,生成逼真的室内效果图。
  • 视觉效果创作:开发者可以利用该工具探索新的视觉效果和风格,通过精确控制布局和图像细节,创造出更具创意和吸引力的游戏画面。
  • 教学材料制作:教师能够通过 CreatiLayout 将知识点以图文并茂的形式呈现,提升学习效果。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...