超越ControlNet++！腾讯优图提出动态条件选择新架构

文生图变得更可控了

原标题：超越ControlNet++！腾讯优图提出动态条件选择新架构
文章来源：量子位
内容字数：6329字

超越ControlNet++，腾讯优图等机构提出DynamicControl框架，实现更可控的文生图

近日，腾讯优图、南洋理工、浙大等研究机构联合推出DynamicControl，一个全新的文本生成图像(T2I)框架，在可控性方面超越了ControlNet++。该框架直接将多模态大语言模型(MLLM)的推理能力集成到T2I任务中，并提出了一种新颖高效的多控制适配器，能够自适应地选择不同的条件，实现动态多控制对齐。

1. 现有方法的局限性

之前的ControlNet类模型尝试利用各种控制信号（布局约束、分割图、深度图等）来控制图像生成。一些方法如UniControl、UniControlNet随机选择一种条件进行训练，效率低下；另一些方法如AnyControl、ControlNet++使用固定数量的条件，无法根本解决多条件问题，也未考虑条件间的冲突。这些方法都存在局限性，难以充分利用多种控制条件的潜力。

2. DynamicControl框架的核心思想

DynamicControl框架的核心在于动态条件选择。它能够自适应地选择不同数量和类型的条件，并根据这些条件对生成图像的影响进行动态组合。该框架主要包含三个关键组件：

3. 双循环控制器 (Double-Cycle Controller)

该控制器通过两个一致性损失函数来评估输入条件的重要性：条件一致性损失和反向图像一致性损失。条件一致性损失优化条件与生成图像的匹配度；反向图像一致性损失确保生成图像与源图像相似。这两个损失函数共同作用，对输入条件进行初始重要性评估。

4. 条件评估器 (Condition Evaluator)

为了解决双循环控制器依赖于预训练生成模型和源图像的问题，DynamicControl引入了多模态大语言模型(MLLM)。MLLM对条件和指令进行处理，生成更深层的语义信息，并通过Q-Former将其转换为与扩散模型兼容的嵌入。MLLM的预测结果由双循环控制器的排序分数进行监督，优化条件的排序。

5. 多控制适配器 (Multi-Control Adapter)

多控制适配器用于自适应地解释复杂的控制信号，从文本提示和动态空间条件中提取多控制嵌入。它根据预训练的条件评估器对条件进行评分，只选择达到预定义阈值的条件参与后续的T2I模型优化。该阈值是可学习的参数，能够自适应地调整，避免条件冲突。

6. 实验结果

实验结果表明，DynamicControl在各种条件控制和数据集下都显著增强了可控性，且没有牺牲图像质量或图像文本对齐。FID和CLIP分数也验证了其优越性。可视化结果进一步展示了DynamicControl生成的图像更符合输入条件。

7. 总结

DynamicControl框架通过引入MLLM和动态条件选择机制，有效解决了现有方法在多条件可控性方面的局限性。它能够更灵活、高效地利用多种控制条件，生成更符合预期且高质量的图像，为可控视觉生成领域带来了新的突破。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # ControlNet架构改进 # 动态条件选择 # 图像生成模型 # 条件式图像生成 # 腾讯优图AI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

超越ControlNet++！腾讯优图提出动态条件选择新架构

文生图变得更可控了

超越ControlNet++，腾讯优图等机构提出DynamicControl框架，实现更可控的文生图

1. 现有方法的局限性

2. DynamicControl框架的核心思想

3. 双循环控制器 (Double-Cycle Controller)

4. 条件评估器 (Condition Evaluator)

5. 多控制适配器 (Multi-Control Adapter)

6. 实验结果

7. 总结

联系作者

OpenAI研究员首次提出「AGI时间」进化论！o1数学已达「分钟级AGI」

中国AI群星闪耀时：16位顶级人才的离与去

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点