SuperEdit

SuperEdit – 字节跳动等机构推出的图像编辑方法

SuperEdit

SuperEdit是什么

SuperEdit是由字节跳动智能创作团队与佛罗里达大学计算机视觉研究中心共同开发的一种图像编辑工具。它通过指令引导的方式，利用优化的监督信号显著提升图像编辑的准确性与效果。SuperEdit通过对编辑指令的修正，确保原始图像与编辑图像的对齐更加精确，并引入对比监督信号以进一步优化模型的训练过程。值得一提的是，SuperEdit无需依赖额外的视觉语言模型（VLM）或预训练任务，仅依靠高质量的监督信号，在多个基准测试中展现了显著的性能提升。

SuperEdit的主要功能

高精度图像编辑：根据自然语言指令精准地对图像进行编辑，支持多种编辑任务，包括全局、局部和风格调整等。
高效训练：在少量训练数据和较小模型规模的条件下实现高性能，显著降低训练成本。
保留原始图像质量：在编辑过程中，尽量保持原始图像的结构和细节，避免不必要的变动。

SuperEdit的技术原理

扩散模型的生成属性：利用扩散模型在不同推理阶段的特性指导编辑指令的修正。在早期阶段，扩散模型专注于全局布局；中期阶段则关注局部对象属性；而后期阶段则重视图像的细节，这一过程中风格变化贯穿始终。
编辑指令修正：根据输入的原始图像与编辑图像，生成描述两者差异的编辑指令，定义统一的修正指南，以确保生成的指令准确反映实际变化。
对比监督信号：引入对比监督信号，通过生成错误的编辑指令创建正负样本对，运用三元组损失函数进行模型训练，以更好地区分正确与错误的指令。
高效训练策略：SuperEdit在训练中利用少量高质量的编辑数据，避免大规模数据集带来的计算负担。通过优化的监督信号，能够在较少的数据和小型模型下实现与复杂架构相当甚至更佳的性能。
模型架构：基于InstructPix2Pix框架，利用预训练的扩散模型（如Stable Diffusion）作为基础，通过修正编辑指令和对比监督信号进行微调。