AIGC动态欢迎阅读
原标题:在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键
文章来源:机器之心
内容字数:6122字
内容摘要:机器之心报道编辑:张倩、陈萍为什么语言模型在视觉生成方面落后于扩散模型?来自谷歌、CMU 的研究表明,tokenizer 是关键。大型语言模型(LLM 或 LM)一开始是用来生成语言的,但随着时间的推移,它们已经能够生成多种模态的内容,并在音频、语音、代码生成、医疗应用、机器人学等领域开始占据主导地位。当然,LM 也能生成图像和视频。在此过程中,图像像素会被视觉 tokenizer 映射为一系列离…
原文链接:点此阅读原文:在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...