AIGC动态欢迎阅读
原标题:北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token
关键字:字节跳动,模型,图像,分辨率,峰会
文章来源:量子位
内容字数:3953字
内容摘要:
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI北大和字节联手搞了个大的:
提出图像生成新范式,从预测下一个token变成预测下一级分辨率,效果超越Sora核心组件Diffusion Transformer(DiT)。
并且代码开源,短短几天已经揽下1.3k标星,登上GitHub趋势榜。
具体是个什么效果?
实验数据上,这个名为VAR(Visual Autoregressive Modeling)的新方法不仅图像生成质量超过DiT等传统SOTA,推理速度也提高了20+倍。
这也是自回归模型首次在图像生成领域击败DiT。
直观感受上,话不多说,直接看图:
值得一提的是,研究人员还在VAR上,观察到了大语言模型同款的Scaling Laws和零样本任务泛化。
论文代码上线,已经引发不少专业讨论。
有网友表示有被惊到,顿时觉得其他扩散架构的论文有点索然无味。
还有人认为,这是一种通向Sora的更便宜的潜在途径,计算成本可降低一个乃至多个数量级。
预测下一级分辨率简单来说,VAR的核心创新,就是用预测下一级分辨率,替代了预测下一个token的传统自回归方法。
VAR的训练分为两个阶段。
第一
原文链接:北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...