AIGC动态欢迎阅读
原标题:大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友
文章来源:量子位
内容字数:2561字
内容摘要:白交 发自 凹非寺量子位 | 公众号 QbitAI语言模型击败扩散模型,在视频和图像生成上实现双SOTA!这是来自谷歌CMU最新研究成果。据介绍,这是语言模型第一次在标志性的ImageNet基准上击败扩散模型。而背后的关键组件在于视觉分词器(video tokenizer) ,它能将像素空间输入映射为适合LLM学习的token。谷歌CMU研究团队提出了MAGVIT-v2,在另外两项任务中超越了之前…
原文链接:点此阅读原文:大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...