BrushEdit:智能指令驱动的图像编辑与修复框架全面提升创作效率与质量

BrushEdit是腾讯与北京大学等多家机构联合开发的一款前沿图像编辑框架,作为BrushNet模型的高级版本,它结合了多模态大型语言模型(MLLMs)和双分支图像修复模型,支持基于指令的图像编辑和修复。用户可以通过自然语言指令进行灵活且多轮次的编辑操作,轻松实现对图像的添加、删除等大幅度修改,同时保持背景的自然连贯性,极大提升了图像编辑的灵活性和用户体验。

BrushEdit是什么

BrushEdit是腾讯、北京大学、香港中大学及清华大学同推出的先进图像编辑框架,作为BrushNet模型的升级版本,框架融合了多模态大型语言模型(MLLMs)与双分支图像修复模型,能够实现基于指令的图像编辑和修复。用户可以使用自然语言进行形式的、多轮交互式的编辑操作,BrushEdit不仅支持对图像进行大幅度的修改,同时还能保持背景的自然性,提升了用户的编辑体验。

BrushEdit:智能指令驱动的图像编辑与修复框架全面提升创作效率与质量

BrushEdit的主要功能

  • 指令驱动的图像编辑:用户可以通过自然语言指令来指导图像编辑任务,例如添加、删除或修改图像中的元素。
  • 多轮交互式编辑:支持用户在编辑过程中进行多轮互动,逐步调整和完善编辑效果。
  • 形式的掩码编辑:用户可以绘制掩码来指定编辑区域,无需使用精确的分割工具。
  • 背景和前景的处理:框架能够有效区分编辑区域(前景)与非编辑区域(背景),确保编辑操作不影响图像的其他部分。
  • 智能图像修复:自动填充和修复图像中的缺失区域或指定区域,例如去除不必要的对象或填补白。

BrushEdit的技术原理

  • 多模态大型语言模型(MLLMs):使用预训练的MLLMs解析用户的形式编辑指令,识别编辑类型和目标对象。
  • 双分支图像修复模型:框架采用双分支结构,其中一个分支处理掩码区域的图像生成,另一个分支负责处理未掩码区域的背景信息。
  • 代理协作机制:通过代理(代理指导者与代理指挥者)之间的协作,实现编辑类别分类、主要对象识别、掩码获取及编辑区域修复。
  • 特征融合技术:将用户指令和掩码信息融合至图像修复模型中,引导模型在掩码区域内生成符合指令的内容。
  • 零卷积层与特征插入:通过零卷积层将冻结的预训练模型与可训练的BrushEdit模型连接,降低早期训练阶段的噪声,逐层集成特征以实现精细控制。
  • 混合微调策略:结合随机掩码和分割掩码的微调策略,使模型能够处理多种掩码任务,不受特定掩码类型的限制。

BrushEdit的项目地址

BrushEdit的应用场景

  • 内容创作与编辑:艺术家和设计师能够轻松进行创意图像编辑,快速实现复杂的视觉效果和艺术创作。
  • 媒体与娱乐:在电影和视频制作中,修复老旧或损坏的影像资料,或在后期制作中去除不需要的元素。
  • 广告与营销:广告制作人能够快速更改广告图像中的产品或背景,适应不同的营销策略。
  • 社交媒体:用户可以在社交媒体上分享经过编辑的图片,例如节日装饰、虚拟试穿服装等。
  • 电子商务:电商台可以编辑产品图片,例如更换产品背景、调整产品颜色或添加促销标签。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...