复旦发布多模态大模型AnyGPT，文图语乐样样行

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：复旦发布多模态大模型AnyGPT，文图语乐样样行
关键字：模型,分词,文本,表示,图像
文章来源：夕小瑶科技说
内容字数：7075字

内容摘要：

夕小瑶科技说原创作者 | 芒果
引言：多模态语言模型新篇章在人工智能领域，多模态语言模型的发展正迎来新的篇章。传统的大型语言模型（LLM）在理解和生类语言方面展现出了卓越的能力，但这些能力通常局限于文本处理。然而，现实世界是一个本质上多模态的环境，生物体通过视觉、语言、声音和触觉等多种渠道感知和交换信息。在这样的背景下，一个有前景的目标是增强LLM，使其具备多模态感知能力。
最近的研究如Emu、SEED-LLaMA和SpeechGPT已经在使语言模型具备多模态理解和生成的能力上取得了重要进展。然而，这些模型仅集成了单一的非文本模态，如图像或音频。虽然将文本与一个额外的模态对齐相对简单，但在单一框架内整合多个模态（N ≥ 3）并实现它们之间的双向对齐则是一个更为艰巨的挑战。
为了克服这些挑战，研究者推出了AnyGPT，一个任意到任意的多模态语言模型，它采用离散表示来统一处理文本、各种模态、图像和音乐。AnyGPT配备了多模态分词器，将原始多模态数据（如图像和音频）压缩成一系列离散的语义令牌。这些离散表示使得核心LLM能够在语义层面上自回归地统一感知、理解、推理和生成任务。随后，去分

原文链接：复旦发布多模态大模型AnyGPT，文图语乐样样行