扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式

scaling 推理将是改进扩散模型的一个非常有前途的方向。

扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式

原标题:扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式
文章来源:机器之心
内容字数:13441字

扩散模型推理时Scaling:超越单纯增加去噪步骤

近期研究表明,增加LLM推理时间计算可以显著提升性能。这项成果也引发了对于扩散模型推理时Scaling的探索。纽约大学谢赛宁团队的研究表明,增加扩散模型推理时间计算同样有效,可以显著提升生成样本质量。该团队构建了一个通用搜索框架,系统性地探索了扩散模型的推理时Scaling情况,并取得了显著成果。论文标题为:Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps。

1. 框架设计:验证器与算法

该框架主要包含两个设计轴:验证器和算法。验证器用于评估候选样本质量,可以是预训练模型,例如CLIP、DINO等,或直接使用FID和IS等指标作为Oracle验证器。算法则用于寻找更好的噪声候选项,论文中研究了随机搜索、零阶搜索和路径搜索三种算法。

2. 验证器与任务匹配

研究发现,验证器的有效性取决于其与特定任务需求的匹配程度。例如,Aesthetic Score Predictor关注视觉质量,而CLIP优先考虑视觉-文本对齐,两者在评估上存在差异,需要根据不同应用场景选择合适的验证器,甚至可以采用验证器集成的方法。

3. 算法选择与性能

随机搜索简单高效,但容易导致“验证器黑客”现象;零阶搜索和路径搜索则通过局部搜索缓解了这一问题,但性能取决于具体参数设置。实验结果表明,三种算法都能有效提升采样质量,但没有一种算法在所有情况下都最优。

4. 文生图场景中的应用

研究团队在DrawBench和T2I-CompBench数据集上验证了该框架在文生图任务中的有效性,并使用了Aesthetic Score Predictor、CLIPScore、ImageReward等多种验证器,以及验证器集成策略。结果表明,搜索方法可以有效提升文生图模型的性能,并且不同验证器在不同任务中的表现差异显著。

5. 推理计算的有效利用

研究还探讨了如何更有效地利用推理计算资源。实验表明,通过调整搜索迭代次数、每次迭代的计算量以及最终生成的去噪步骤,可以找到计算最优区域,从而在有限的计算资源下获得更好的生成效果。此外,对小型模型进行推理时计算Scaling,可以有效提升性能,甚至在某些情况下超越不进行搜索的大型模型。

6. 搜索与微调的兼容性

研究表明,搜索方法可以与微调方法兼容,例如使用DPO微调的Stable Diffusion XL模型,搜索方法仍然可以进一步提升其性能,这为模型优化提供了新的思路。

总而言之,该研究证明了在扩散模型推理阶段进行Scaling的有效性,提出了一个通用的搜索框架,并对验证器选择、算法设计以及计算资源分配等方面进行了深入探讨,为提升扩散模型生成质量提供了新的方向。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...