原标题:图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT
文章来源:新智元
内容字数:5880字
引言
本文总结了MAPLE实验室提出的一种通过强化学习优化图像生成模型去噪过程的方法。该方法旨在以更少的步骤生成高质量图像,并在多个图像生成模型中实现了显著的推理步骤减少和图像质量提升。
研究背景
当前,扩散模型和流匹配模型是主流的图像生成技术。这些模型通过逐步去噪将从高斯噪声中采样的信号转变为高质量图像。然而,传统的去噪过程面临两个问题:一是无法保证最终图像符合人类偏好,二是对不同复杂度的图像采用相同的去噪策略。MAPLE实验室发现,通过强化学习微调,可以使模型自适应地调整推理过程中的噪声强度,从而以更少的步骤生成高质量的图像。
方法概述
MAPLE实验室将图像生成过程视为类似于大语言模型(LLM)的思维链(CoT)。在模型推理过程中,利用时间预测模块(TPM)动态预测下一步去噪所需的扩散时间。通过引入强化微调技术,模型能够在每一步中根据奖励模型评估图像质量,以确保生成过程符合人类偏好。
强化微调训练
在训练过程中,模型使用Beta分布对扩散时间进行采样,并通过奖励函数综合考虑生成图像的质量和去噪步数。研究显示,经过强化微调的模型在保持图像质量的同时,平均减少约50%的生成步数。强化微调不仅提高了模型的生成效率,还显著改善了生成图像的自然度。
实验结果
在对Stable Diffusion 3、Flux-dev等先进开源图像生成模型进行强化微调训练后,实验结果表明,经过强化微调的模型普遍减少了推理步数,同时图像质量保持稳定。这一结果验证了强化微调作为一种通用的后训练方法在图像生成领域的有效性。
结论
MAPLE实验室的研究展示了通过强化学习优化多步去噪图像生成过程的潜力。强化微调技术不仅显著减少了推理步骤,还提升了生成图像的质量,表明该方法在图像生成模型中的应用与提升仍有广阔的前景。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。