可控图像生成最新综述！北邮开源20页249篇文献，包揽Text-to-Image Diffusion领域各种「条件」

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：可控图像生成最新综述！北邮开源20页249篇文献，包揽Text-to-Image Diffusion领域各种「条件」
关键字：条件,模型,图像,文本,方法
文章来源：新智元
内容字数：11580字

内容摘要：

新智元报道编辑：LRS
【新智元导读】利用文本生成图片（Text-to-Image, T2I）已经满足不了人们的需要了，近期研究在T2I模型的基础上引入了更多类型的条件来生成图像，本文对这些方法进行了总结综述。在视觉生成领域迅速发展的过程中，扩散模型已经彻底改变了这一领域的格局，通过其令人印象深刻的文本引导生成功能标志着能力方面的重大转变。
然而，仅依赖文本来调节这些模型并不能完全满足不同应用和场景的多样化和复杂需求。
鉴于这种不足，许多研究旨在控制预训练文本到图像（T2I）模型以支持新条件。
在此综述中，来自北京邮电大学的研究人员对关于具有 T2I 扩散模型可控性生成的文献进行了彻底审查，涵盖了该领域内理论基础和实际进展。论文：https://arxiv.org/abs/2403.04279代码：https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models
我们的审查从简要介绍去噪扩散概率模型（DDPMs）和广泛使用的 T2I 扩散模型基础开始。
然后我们揭示了扩散模型的控制机制，并从理论上分析