在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键

AIGC动态11个月前发布 机器之心
29 0 0

在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键

AIGC动态欢迎阅读

原标题:在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键

关键字:模型,视觉,语言,视频,本文

文章来源:机器之心

内容字数:6122字

内容摘要:机器之心报道编辑:张倩、陈萍为什么语言模型在视觉生成方面落后于扩散模型?来自谷歌、CMU 的研究表明,tokenizer 是关键。大型语言模型(LLM 或 LM)一开始是用来生成语言的,但随着时间的推移,它们已经能够生成多种模态的内容,并在音频、语音、代码生成、医疗应用、机器人学等领域开始占据主导地位。当然,LM 也能生成图像和视频。在此过程中,图像像素会被视觉 tokenizer 映射为一系列离…

原文链接:点此阅读原文:在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...