AIGC动态欢迎阅读
原标题:复旦发布多模态大模型AnyGPT,文图语乐样样行
关键字:模型,分词,文本,表示,图像
文章来源:夕小瑶科技说
内容字数:7075字
内容摘要:
夕小瑶科技说 原创作者 | 芒果
引言:多模态语言模型新篇章在人工智能领域,多模态语言模型的发展正迎来新的篇章。传统的大型语言模型(LLM)在理解和生类语言方面展现出了卓越的能力,但这些能力通常局限于文本处理。然而,现实世界是一个本质上多模态的环境,生物体通过视觉、语言、声音和触觉等多种渠道感知和交换信息。在这样的背景下,一个有前景的目标是增强LLM,使其具备多模态感知能力。
最近的研究如Emu、SEED-LLaMA和SpeechGPT已经在使语言模型具备多模态理解和生成的能力上取得了重要进展。然而,这些模型仅集成了单一的非文本模态,如图像或音频。虽然将文本与一个额外的模态对齐相对简单,但在单一框架内整合多个模态(N ≥ 3)并实现它们之间的双向对齐则是一个更为艰巨的挑战。
为了克服这些挑战,研究者推出了AnyGPT,一个任意到任意的多模态语言模型,它采用离散表示来统一处理文本、各种模态、图像和音乐。AnyGPT配备了多模态分词器,将原始多模态数据(如图像和音频)压缩成一系列离散的语义令牌。这些离散表示使得核心LLM能够在语义层面上自回归地统一感知、理解、推理和生成任务。随后,去分
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI一线开发者、互联网中高管和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备行业嗅觉与报道深度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...