文生图变得更可控了
原标题:超越ControlNet++!腾讯优图提出动态条件选择新架构
文章来源:量子位
内容字数:6329字
超越ControlNet++,腾讯优图等机构提出DynamicControl框架,实现更可控的文生图
近日,腾讯优图、南洋理工、浙大等研究机构联合推出DynamicControl,一个全新的文本生成图像(T2I)框架,在可控性方面超越了ControlNet++。该框架直接将多模态大语言模型(MLLM)的推理能力集成到T2I任务中,并提出了一种新颖高效的多控制适配器,能够自适应地选择不同的条件,实现动态多控制对齐。
1. 现有方法的局限性
之前的ControlNet类模型尝试利用各种控制信号(布局约束、分割图、深度图等)来控制图像生成。一些方法如UniControl、UniControlNet随机选择一种条件进行训练,效率低下;另一些方法如AnyControl、ControlNet++使用固定数量的条件,无法根本解决多条件问题,也未考虑条件间的冲突。这些方法都存在局限性,难以充分利用多种控制条件的潜力。
2. DynamicControl框架的核心思想
DynamicControl框架的核心在于动态条件选择。它能够自适应地选择不同数量和类型的条件,并根据这些条件对生成图像的影响进行动态组合。该框架主要包含三个关键组件:
3. 双循环控制器 (Double-Cycle Controller)
该控制器通过两个一致性损失函数来评估输入条件的重要性:条件一致性损失和反向图像一致性损失。条件一致性损失优化条件与生成图像的匹配度;反向图像一致性损失确保生成图像与源图像相似。这两个损失函数共同作用,对输入条件进行初始重要性评估。
4. 条件评估器 (Condition Evaluator)
为了解决双循环控制器依赖于预训练生成模型和源图像的问题,DynamicControl引入了多模态大语言模型(MLLM)。MLLM对条件和指令进行处理,生成更深层的语义信息,并通过Q-Former将其转换为与扩散模型兼容的嵌入。MLLM的预测结果由双循环控制器的排序分数进行监督,优化条件的排序。
5. 多控制适配器 (Multi-Control Adapter)
多控制适配器用于自适应地解释复杂的控制信号,从文本提示和动态空间条件中提取多控制嵌入。它根据预训练的条件评估器对条件进行评分,只选择达到预定义阈值的条件参与后续的T2I模型优化。该阈值是可学习的参数,能够自适应地调整,避免条件冲突。
6. 实验结果
实验结果表明,DynamicControl在各种条件控制和数据集下都显著增强了可控性,且没有牺牲图像质量或图像文本对齐。FID和CLIP分数也验证了其优越性。可视化结果进一步展示了DynamicControl生成的图像更符合输入条件。
7. 总结
DynamicControl框架通过引入MLLM和动态条件选择机制,有效解决了现有方法在多条件可控性方面的局限性。它能够更灵活、高效地利用多种控制条件,生成更符合预期且高质量的图像,为可控视觉生成领域带来了新的突破。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破