北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token

AIGC动态8个月前发布 量子位
12 0 0

北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token

AIGC动态欢迎阅读

原标题:北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token
关键字:字节跳动,模型,图像,分辨率,峰会
文章来源:量子位
内容字数:3953字

内容摘要:


鱼羊 发自 凹非寺量子位 | 公众号 QbitAI北大和字节联手搞了个大的:
提出图像生成新范式,从预测下一个token变成预测下一级分辨率,效果超越Sora核心组件Diffusion Transformer(DiT)。
并且代码开源,短短几天已经揽下1.3k标星,登上GitHub趋势榜。
具体是个什么效果?
实验数据上,这个名为VAR(Visual Autoregressive Modeling)的新方法不仅图像生成质量超过DiT等传统SOTA,推理速度也提高了20+倍。
这也是自回归模型首次在图像生成领域击败DiT。
直观感受上,话不多说,直接看图:
值得一提的是,研究人员还在VAR上,观察到了大语言模型同款的Scaling Laws和零样本任务泛化。
论文代码上线,已经引发不少专业讨论。
有网友表示有被惊到,顿时觉得其他扩散架构的论文有点索然无味。
还有人认为,这是一种通向Sora的更便宜的潜在途径,计算成本可降低一个乃至多个数量级。
预测下一级分辨率简单来说,VAR的核心创新,就是用预测下一级分辨率,替代了预测下一个token的传统自回归方法。
VAR的训练分为两个阶段。
第一


原文链接:北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...