在图像、视频生成上，语言模型首次击败扩散模型，tokenizer是关键

AIGC动态3年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：在图像、视频生成上，语言模型首次击败扩散模型，tokenizer是关键

关键字：模型,视觉,语言,视频,本文

文章来源：机器之心

内容字数：6122字

内容摘要：机器之心报道编辑：张倩、陈萍为什么语言模型在视觉生成方面落后于扩散模型？来自谷歌、CMU 的研究表明，tokenizer 是关键。大型语言模型（LLM 或 LM）一开始是用来生成语言的，但随着时间的推移，它们已经能够生成多种模态的内容，并在音频、语音、代码生成、医疗应用、机器人学等领域开始占据主导地位。当然，LM 也能生成图像和视频。在此过程中，图像像素会被视觉 tokenizer 映射为一系列离…

原文链接：点此阅读原文：在图像、视频生成上，语言模型首次击败扩散模型，tokenizer是关键