大模型学会听音乐了！风格乐器精准分析，还能剪辑合成

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：大模型学会听音乐了！风格乐器精准分析，还能剪辑合成
关键字：音乐,腾讯,模型,编码器,模块
文章来源：量子位
内容字数：6347字

内容摘要：

腾讯PCG ARC实验室投稿量子位 | 公众号 QbitAI能处理音乐的多模态大模型，终于出现了！
只见它准确分析出音乐的旋律、节奏，还有使用的乐器，甚至其中的意境也能解读。而且它不仅会听，只要给它一段文字和图片，它就会在理解图片意境之后，结合文字要求来创作：甚至是给静默的视频配上声音：现有的音乐它也能编辑，比如从一段音乐中去除鼓的声音以上的这些效果，都出自腾讯PCG ARC实验室新推出的基于多模态模型的音乐理解与生成框架M2UGen。
它可以进行音乐理解、音乐编辑以及多模态音乐生成（文本/图像/视频到音乐生成）。
研究团队在模型的五种能力上分别和现有模型进行了一一对比，并在多模态音乐生成的三个子任务上（文本/图像/视频到音乐生成）做了主观评测实验，发现M2UGen模型性能均优于现有模型。
此外，由于没有很多合适数据集用于模型训练，研究团队还研发了一套数据生成方法，制作了MUCaps、MUEdit、MUImage、MUVideo四个数据集并发布。
目前团队已将模型代码库在Github开源，并在Huggingface上开放了模型权重和训练所需数据集（需申请）。
那么，M2UGen究竟是

原文链接：大模型学会听音乐了！风格乐器精准分析，还能剪辑合成