腾讯 PCG ARC Lab、新加坡国立大合发布 M2UGen：基于 LLM 的多模态音乐理解与生成

AIGC动态2年前 (2024)发布 AI科技评论

腾讯 PCG ARC Lab、新加坡国立大学联合发布 M2UGen：基于 LLM 的多模态音乐理解与生成

AIGC动态欢迎阅读

原标题：腾讯 PCG ARC Lab、新加坡国立大合发布 M2UGen：基于 LLM 的多模态音乐理解与生成
关键字：音乐,模型,编码器,模块,文本
文章来源：AI科技评论
内容字数：10866字

内容摘要：

在过去的一年里，基于大语言模型LLM的音乐AIGC技术蓬勃发展，为LLM的下游应用注入了新的活力。
本研究成果M2UGen致力于将LLM和音乐理解与音乐生成技术相结合，构建一个统一的多模态音乐AI辅助工具，希望能为音乐创作领域带来新的启示和突破。1背景介绍ChatGPT诞生伊始，LLM相关研究进入了一个井喷状态，也吸引了大量学术界和工业界人士关注。除了诸如ChatGPT这种仅以文本作为输入输出的模型以外，很多研究工作以LLM作为连接不同模态的桥梁，如视觉方向的Flamingo[1]，音频方向的SALMONN[2]以及三维方向的3D-GPT[3]等，这极大地扩展了LLM的应用场景。
已有的基于LLM的研究大都集中在利用LLM辅助进行单一的理解或者生成，少有研究将二者结合起来。已知的一些多模态理解与生成LLM的研究工作包括SEED-LLaMA[4]（图像理解与生成）、InternLM-XComposer[5]（图文穿插式对话）和NExT-GPT[6]（任意模态理解与生成）。其中NExT-GPT和我们的研究工作相关程度最高，但其音乐方面能力较弱，还有较大的进步空间。
因此，为了填补这个空白，

原文链接：腾讯 PCG ARC Lab、新加坡国立大合发布 M2UGen：基于 LLM 的多模态音乐理解与生成