性能超过OminiControl
原标题:360AI推出DiT架构下"省钱版"ControlNet, 参数量骤减85%性能达到SOTA!
文章来源:量子位
内容字数:5382字
RelaCtrl: 高效可控图像生成框架
本文总结了RelaCtrl团队发表在凹非寺量子位 | 公众号 QbitAI 的文章,介绍了一种新一代高效可控图像生成框架RelaCtrl。该框架旨在解决现有基于Diffusion Transformer (DiT) 的可控生成方法参数量巨大、计算开销大以及资源分配效率低下的问题。
1. 研究动机
现有的DiT可控生成方法,例如PixArt-δ和OminiControl,虽然提高了图像生成的保真度和与文本描述的一致性,但存在两个主要问题:一是参数量和计算量巨大,增加了训练和推理负担;二是忽略了不同Transformer层之间控制信息的相关性,导致计算资源分配效率低下。
2. RelaCtrl框架的核心思想
RelaCtrl框架通过优化控制信号的集成方式,实现了更高效的资源利用。其核心思想是:首先,通过分析不同Transformer层对控制信息的相关性,选择最关键的层进行控制信息注入;其次,设计轻量级的控制模块,减少参数量和计算量。
3. 关键技术
RelaCtrl框架包含两个主要部分:
- DiT-ControlNet Relevance Prior: 该方法通过在推理阶段跳过控制网络中的不同层,并使用Fréchet Inception Distance (FID) 和Hausdorff Distance (HDD)评估生成图像的质量和控制精度,从而计算得到“ControlNet相关性得分”。根据得分,选择最关键的层进行控制信息集成。实验表明,不同层对控制信息的相关性呈现先增加后减少的趋势,前中心层相关性较高。
- Two Dimensions Shuffle Mixer (TDSM): 为了减轻控制分支的计算负担,RelaCtrl提出了TDSM模块,它将Transformer块中的注意力层和前馈网络层替换为一个更轻量级的操作。TDSM通过对token进行分组计算和随乱,增强了token组之间的交互和建模能力,有效减少了参数数量和计算需求。
4. 实验结果
实验结果表明,RelaCtrl在多种条件下的可控生成任务上取得了显著成果。与PixArt-δ相比,RelaCtrl在控制性能相当的情况下,参数量减少了约15%。与ControlNet相比,RelaCtrl在参数量和计算复杂度增加上更低,同时在控制指标、视觉质量和文本相似度上均实现了更优的表现。消融实验也验证了各个模块的有效性,并且RelaCtrl兼容社区模型。
5. 结论
RelaCtrl框架通过精确的参数分配和控制策略,结合轻量化设计的控制模块,有效解决了现有DiT可控生成方法的效率问题。其在参数量、计算复杂度和生成质量上的优势,使其成为一种具有竞争力的高效可控图像生成框架。
论文地址:http://arxiv.org/abs/2502.14377
项目主页:https://360cvgroup.github.io/RelaCtrl/
代码仓库:https://github.com/360CVGroup/RelaCtrl
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破