腾讯 PCG ARC Lab、新加坡国立大学联合发布 M2UGen:基于 LLM 的多模态音乐理解与生成

腾讯 PCG ARC Lab、新加坡国立大学联合发布 M2UGen:基于 LLM 的多模态音乐理解与生成

AIGC动态欢迎阅读

原标题:腾讯 PCG ARC Lab、新加坡国立大学联合发布 M2UGen:基于 LLM 的多模态音乐理解与生成
关键字:音乐,模型,编码器,模块,文本
文章来源:AI科技评论
内容字数:10866字

内容摘要:


在过去的一年里,基于大语言模型LLM的音乐AIGC技术蓬勃发展,为LLM的下游应用注入了新的活力。
本研究成果M2UGen致力于将LLM和音乐理解与音乐生成技术相结合,构建一个统一的多模态音乐AI辅助工具,希望能为音乐创作领域带来新的启示和突破。1背景介绍ChatGPT诞生伊始,LLM相关研究进入了一个井喷状态,也吸引了大量学术界和工业界人士关注。除了诸如ChatGPT这种仅以文本作为输入输出的模型以外,很多研究工作以LLM作为连接不同模态的桥梁,如视觉方向的Flamingo[1],音频方向的SALMONN[2]以及三维方向的3D-GPT[3]等,这极大地扩展了LLM的应用场景。
已有的基于LLM的研究大都集中在利用LLM辅助进行单一的理解或者生成,少有研究将二者结合起来。已知的一些多模态理解与生成LLM的研究工作包括SEED-LLaMA[4](图像理解与生成)、InternLM-XComposer[5](图文穿插式对话)和NExT-GPT[6](任意模态理解与生成)。其中NExT-GPT和我们的研究工作相关程度最高,但其音乐方面能力较弱,还有较大的进步空间。
因此,为了填补这个空白,


原文链接:腾讯 PCG ARC Lab、新加坡国立大学联合发布 M2UGen:基于 LLM 的多模态音乐理解与生成

联系作者

文章来源:AI科技评论
作者微信:aitechtalk
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...