新方法性能与 CFG 相当,而采样成本减半。
清华大学提出Guidance-Free Training (GFT)算法:高效且兼容的免引导采样视觉生成模型训练方法
机器之心AIxiv专栏报道了清华大学TSAIL团队一项最新研究成果:Guidance-Free Training (GFT) 算法。该算法为视觉生成模型提供了一种极其简单高效的免引导采样训练方法,在性能上与传统的引导采样算法Classifier-Free Guidance (CFG)相当,同时显著降低了采样成本。
1. 引导采样的问题与GFT的解决方案
传统的视觉生成模型常常依赖引导采样(CFG)来提升生成质量和多样性。然而,CFG 需要同时进行有条件和无条件两次模型推理,导致计算开销翻倍,并在模型微调和蒸馏过程中增加复杂度。现有方法多采用基于预训练CFG模型的蒸馏手段,但会引入额外训练阶段并可能造成性能损失。
GFT算法巧妙地解决了这个问题。它通过直接训练一个“隐式”有条件模型,避免了显式参数化无条件模型。该隐式模型由采样模型和无条件模型的线性组合表示,线性组合系数β(“伪温度系数”)控制着采样模型与CFG算法定义的采样分布的对应关系。 GFT实现了原生免CFG视觉模型的从零训练,并拥有与CFG相当的收敛速度和采样表现。
2. GFT算法的设计与优势
GFT算法的核心在于其简洁性和高效性。它沿用了监督训练中的扩散损失函数,只需在训练过程中将有条件视觉模型表示为采样模型和无条件模型的线性组合。这种设计使得GFT与CFG训练流程高度一致,只需修改不到10行代码即可实现。
与CFG相比,GFT无需额外内存开销,训练时间仅增加约20%,却能节省50%的采样成本。此外,GFT具有高度通用性,适用于扩散、自回归、掩码三种类型的视觉模型。
3. 实验验证与结论
研究人员在五个不同的视觉架构(DiT、Stable Diffusion、VAR、LlamaGen、MAR)上进行了实验验证。结果表明,GFT作为微调算法可以无损地将CFG预训练模型转换为免引导采样模型;作为预训练算法,GFT训练出的模型性能与CFG模型持平甚至更优,损失函数收敛曲线也基本重合。GFT还能有效控制采样质量和多样性的权衡。
4. 作者介绍
本文两位共同一作均来自清华大学:陈华玉,计算机系四年级博士生,主要研究方向为强化学习与生成式模型;姜凯,TSAIL团队实习生,主要研究方向为视觉生成模型。
总而言之,GFT算法为视觉生成模型的训练提供了一种高效、简洁且兼容性强的免引导采样方法,有望显著提升视觉生成模型的训练效率和应用。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台