图像修复和编辑大一统!腾讯&北大等联合提出BrushEdit

本文介绍了一种新颖的基于修复的指令引导图像编辑范式(IIIE)。

图像修复和编辑大一统!腾讯&北大等联合提出BrushEdit

原标题:图像修复和编辑大一统!腾讯&北大等联合提出BrushEdit
文章来源:智猩猩GenAI
内容字数:12724字

BrushEdit: 一种基于修复的指令引导图像编辑范式

本文介绍了BrushEdit,一个先进的图像编辑框架,它克服了现有基于扩散模型的图像编辑方法的局限性,实现了更灵活、可控和用户友好的图像编辑体验。

1. 现有方法的不足

当前基于扩散模型的图像编辑方法主要有两类:基于反演的方法和基于指令的方法。基于反演的方法在进行大幅度修改时效果较差,因为反演噪声的结构性限制了编辑的灵活性。而基于指令的方法通常是黑箱操作,用户难以直接指定编辑区域和强度。

2. BrushEdit 的创新之处

BrushEdit 提出了一种新的图像编辑范式,它基于图像修复(inpainting)和指令引导。通过整合预训练的多模态大语言模型(MLLMs)和双分支图像修复模型,BrushEdit 建立了一个代理协作框架,实现了指令引导的图像编辑和修复。

具体而言,BrushEdit 的创新体现在以下几个方面:

  1. 基于修复的编辑:采用图像修复技术,避免了基于反演方法的局限性,能够更好地处理大幅度修改。
  2. 指令引导:利用 MLLMs 解析用户形式的编辑指令,理解编辑类型、目标对象以及编辑区域。
  3. 双分支修复模型:一个分支处理背景信息,另一个分支根据指令生成编辑内容,确保编辑结果与背景和谐一致。
  4. 通用性:扩展了 BrushNet,能够处理任意形状的 mask,无需为不同类型的 mask 训练单独的模型。
  5. 交互式编辑:支持多轮交互,用户可以在任何阶段修改或优化中间结果。

3. 技术架构

BrushEdit 的架构由两个主要组件组成:编辑指导者(MLLM)和编辑指挥者(双分支图像修复模型)。编辑指导者解析用户指令,识别编辑类型、目标对象和 mask 区域,并生成编辑后的图像文本描述。编辑指挥者根据这些信息,利用基于Stable Diffusion 1.5的双分支模型进行图像修复,其中一个分支专注于保持未遮挡区域的完整性,另一个分支则根据文本描述生成新的内容。

4. 实验结果

在图像编辑和图像修复基准测试中,BrushEdit 在多个指标上均取得了优异的性能,包括mask区域的精准性、编辑效果的连贯性和自然性、用户交互度以及背景保真度等。实验结果表明,BrushEdit 能够高效结合 MLLMs 和图像修复模型,实现高质量的图像编辑和修复。

5. 总结

BrushEdit 提供了一种全新的、基于图像修复的指令引导图像编辑方法,它具有更高的灵活性、可控性和用户友好性。通过整合 MLLMs 和双分支图像修复模型,BrushEdit 实现了高质量的图像编辑和修复,为图像编辑领域带来了显著的进步。尽管存在一些局限性,如对基础模型的依赖,但其在图像编辑和修复方面的优越性能以及其灵活的架构,使其成为一个极具前景的图像编辑框架。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...