复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持
关键字：模型,语言,图像,任务,文本
文章来源：机器之心
内容字数：4395字

内容摘要：

机器之心报道
机器之心编辑部最近，OpenAI 的视频生成模型 Sora 爆火，生成式 AI 模型在多模态方面的能力再次引起广泛关注。
现实世界本质上是多模态的，生物体通过不同的渠道感知和交换信息，包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知能力，主要涉及多模态编码器与语言模型的集成，从而使其能够跨各种模态处理信息，并利用 LLM 的文本处理能力来产生连贯的响应。
然而，该策略仅限于文本生成，不包含多模态输出。一些开创性工作通过在语言模型中实现多模态理解和生成取得了重大进展，但这些模型仅包含单一的非文本模态，例如图像或音频。
为了解决上述问题，复旦大学邱锡鹏团队联合 Multimodal Art Projection（MAP）、上海人工智能实验室的研究者提出了一种名为 AnyGPT 的多模态语言模型，该模型能够以任意的模态组合来理解和推理各种模态的内容。具体来说，AnyGPT 可以理解文本、语音、图像、音乐等多种模态交织的指令，并能熟练地选择合适的多模态组合进行响应。
例如给出一段语音 prompt，AnyGPT 能够生成语音、图像、音乐形式的综

原文链接：复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持