大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友

AIGC动态1年前 (2023)发布 量子位
36 0 0

大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友

AIGC动态欢迎阅读

原标题:大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友

关键字:模型,视觉,语言,分词,人工智能

文章来源:量子位

内容字数:2561字

内容摘要:白交 发自 凹非寺量子位 | 公众号 QbitAI语言模型击败扩散模型,在视频和图像生成上实现双SOTA!这是来自谷歌CMU最新研究成果。据介绍,这是语言模型第一次在标志性的ImageNet基准上击败扩散模型。而背后的关键组件在于视觉分词器(video tokenizer) ,它能将像素空间输入映射为适合LLM学习的token。谷歌CMU研究团队提出了MAGVIT-v2,在另外两项任务中超越了之前…

原文链接:点此阅读原文:大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...