图像生成迎来CoT时刻!港中文首次提出文生图的o1推理和inference scaling新范式!

首次系统性地探讨了CoT在自回归图像生成中的适用性和潜在优势。

图像生成迎来CoT时刻!港中文首次提出文生图的o1推理和inference scaling新范式!

原标题:图像生成迎来CoT时刻!港中文首次提出文生图的o1推理和inference scaling新范式!
文章来源:智猩猩GenAI
内容字数:5329字

利用思维链提升图像生成质量:Verify & Reinforce策略

本文总结了香港中文大学、北京大学和上海AI Lab的研究成果,该研究探讨了如何将思维链(Chain-of-Thought,CoT)推理策略应用于图像生成领域,以提升图像质量和文本一致性。研究表明,CoT策略能够显著提高自回归图像生成的性能。

1. 研究背景与挑战

CoT推理在大型语言模型(LLM)和多模态大模型(LMM)中已取得显著成功,尤其在数学推理和科学计算方面。然而,将其应用于自回归图像生成任务中,如何有效验证和强化生成过程仍是一个挑战。该研究基于自回归图像生成与LLM在离散化Token表示和逐步解码方面的相似性,首次尝试将CoT应用于图像生成。

2. CoT在图像生成中的应用方法

研究团队提出了几种方法来将CoT应用于图像生成,主要包括:测试时验证(Test-time Verification)、偏好排序数据构建和直接偏好优化(Direct Preference Optimization,DPO)。

3. 核心方案:Verify & Reinforce

研究基于Show-o模型,提出了三个核心部分:

  1. 测试时验证:研究者设计了三种奖励模型:
    • 结果奖励模型(ORM):基于Best-of-N策略,选择多次生成结果中质量最佳的图像,包括Zero-shot ORM和Fine-tuned ORM两种。
    • 过程奖励模型(PRM):对每一步生成过程进行评估,但效果有限。
    • 潜力评估奖励模型(PARM)及其改进版本PARM++:PARM通过清晰度判断、潜力评估和最佳选择提升生成质量;PARM++进一步引入反思机制,允许模型在生成错误时进行自我修正,显著提升了图像生成准确性。
  2. 直接偏好优化(DPO):利用288K图文排序数据,通过最大似然优化,使模型输出更符合人类偏好,提升了图像生成质量。
  3. 测试时验证与DPO结合:将测试时验证与DPO结合,进一步优化生成图像的质量和一致性,取得了最佳效果。

4. 实验结果与结论

实验结果表明,结合PARM和迭代DPO的策略在GenEval基准上取得了显著提升,超过了现有的扩散模型和自回归模型。CoT推理策略显著提升了自回归图像生成的性能,为该领域的研究提供了新的方向。

5. 总结

该研究首次系统性地探索了CoT推理在自回归图像生成中的应用,并提出了创新的奖励模型PARM和PARM++。通过测试时验证和DPO策略的结合,有效提升了图像生成质量和文本一致性,为大模型推理能力的提升提供了重要基础。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下账号,专注于生成式人工智能,主要分享技术文章、论文成果与产品信息。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...