大语言模型击败扩散模型！视频图像生成双SOTA，谷歌CMU最新研究，一作北大校友

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：大语言模型击败扩散模型！视频图像生成双SOTA，谷歌CMU最新研究，一作北大校友

文章来源：量子位

内容字数：2561字

内容摘要：白交发自凹非寺量子位 | 公众号 QbitAI语言模型击败扩散模型，在视频和图像生成上实现双SOTA！这是来自谷歌CMU最新研究成果。据介绍，这是语言模型第一次在标志性的ImageNet基准上击败扩散模型。而背后的关键组件在于视觉分词器（video tokenizer），它能将像素空间输入映射为适合LLM学习的token。谷歌CMU研究团队提出了MAGVIT-v2，在另外两项任务中超越了之前…

原文链接：点此阅读原文：大语言模型击败扩散模型！视频图像生成双SOTA，谷歌CMU最新研究，一作北大校友