超越扩散模型！自回归新范式仅需2.9秒就生成高质量图像，中科大哈工大度小满出品

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：超越扩散模型！自回归新范式仅需2.9秒就生成高质量图像，中科大哈工大度小满出品
关键字：图像,模型,尺度,位置,文本
文章来源：量子位
内容字数：0字

内容摘要：

STAR团队投稿自凹非寺量子位 | 公众号 QbitAI超越扩散模型！自回归范式在图像生成领域再次被验证——
中科大、哈工大、度小满等机构提出通用文生图模型STAR。
仅需2.9秒就可生成高质量图像，超越当前一众包括SDXL在内扩散模型的性能。
此外在生成图像真实度、图文一致性和人类偏好上均表现优秀。
来看看具体是如何做到的？
自回归通用文生图模型STAR扩散模由于其高质量和多元的生成，一度在文生图领域占有主导地位。
它通过逐步的去噪过程，为图像生成提供了更强的稳定性和可控性，然而也导致生成过程极其耗时。
而自回归模型的潜力，在受到大语言模型启发下，开始在这一领域逐渐被探索。
比如VAR指出是因为自回归模型逐个预测token的行为不符合图像模态的特点，提出“next-scale prediction”范式，将视觉自回归建模为逐个预测更大尺度scale的token map。这一方式避免了原始基于next-token的自回归方案难以建模图像模态的问题，重新为视觉生成定义了新的自回归范式，从而使得生成的图像具有更高的真实度，不过仍然有很多局限，性能仍落后于扩散模型。
作者提出基于尺度的文

原文链接：超越扩散模型！自回归新范式仅需2.9秒就生成高质量图像，中科大哈工大度小满出品