超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品

AIGC动态3个月前发布 量子位
4 0 0

超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品

AIGC动态欢迎阅读

原标题:超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品
关键字:图像,模型,尺度,位置,文本
文章来源:量子位
内容字数:0字

内容摘要:


STAR团队 投稿自 凹非寺量子位 | 公众号 QbitAI超越扩散模型!自回归范式在图像生成领域再次被验证——
中科大、哈工大、度小满等机构提出通用文生图模型STAR。
仅需2.9秒就可生成高质量图像,超越当前一众包括SDXL在内扩散模型的性能。
此外在生成图像真实度、图文一致性和人类偏好上均表现优秀。
来看看具体是如何做到的?
自回归通用文生图模型STAR扩散模由于其高质量和多元的生成,一度在文生图领域占有主导地位。
它通过逐步的去噪过程,为图像生成提供了更强的稳定性和可控性,然而也导致生成过程极其耗时。
而自回归模型的潜力,在受到大语言模型启发下,开始在这一领域逐渐被探索。
比如VAR指出是因为自回归模型逐个预测token的行为不符合图像模态的特点,提出“next-scale prediction”范式,将视觉自回归建模为逐个预测更大尺度scale的token map。这一方式避免了原始基于next-token的自回归方案难以建模图像模态的问题,重新为视觉生成定义了新的自回归范式,从而使得生成的图像具有更高的真实度,不过仍然有很多局限,性能仍落后于扩散模型。
作者提出基于尺度的文


原文链接:超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...