北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token
关键字：字节跳动,模型,图像,分辨率,峰会
文章来源：量子位
内容字数：3953字

内容摘要：

鱼羊发自凹非寺量子位 | 公众号 QbitAI北大和字节联手搞了个大的：
提出图像生成新范式，从预测下一个token变成预测下一级分辨率，效果超越Sora核心组件Diffusion Transformer（DiT）。
并且代码开源，短短几天已经揽下1.3k标星，登上GitHub趋势榜。
具体是个什么效果？
实验数据上，这个名为VAR（Visual Autoregressive Modeling）的新方法不仅图像生成质量超过DiT等传统SOTA，推理速度也提高了20+倍。
这也是自回归模型首次在图像生成领域击败DiT。
直观感受上，话不多说，直接看图：
值得一提的是，研究人员还在VAR上，观察到了大语言模型同款的Scaling Laws和零样本任务泛化。
论文代码上线，已经引发不少专业讨论。
有网友表示有被惊到，顿时觉得其他扩散架构的论文有点索然无味。
还有人认为，这是一种通向Sora的更便宜的潜在途径，计算成本可降低一个乃至多个数量级。
预测下一级分辨率简单来说，VAR的核心创新，就是用预测下一级分辨率，替代了预测下一个token的传统自回归方法。
VAR的训练分为两个阶段。
第一

原文链接：北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token