大模型学会听音乐了!风格乐器精准分析,还能剪辑合成

AIGC动态8个月前发布 量子位
20 0 0

大模型学会听音乐了!风格乐器精准分析,还能剪辑合成

AIGC动态欢迎阅读

原标题:大模型学会听音乐了!风格乐器精准分析,还能剪辑合成
关键字:音乐,腾讯,模型,编码器,模块
文章来源:量子位
内容字数:6347字

内容摘要:


腾讯PCG ARC实验室 投稿量子位 | 公众号 QbitAI能处理音乐的多模态大模型,终于出现了!
只见它准确分析出音乐的旋律、节奏,还有使用的乐器,甚至其中的意境也能解读。而且它不仅会听,只要给它一段文字和图片,它就会在理解图片意境之后,结合文字要求来创作:甚至是给静默的视频配上声音:现有的音乐它也能编辑,比如从一段音乐中去除鼓的声音以上的这些效果,都出自腾讯PCG ARC实验室新推出的基于多模态模型的音乐理解与生成框架M2UGen。
它可以进行音乐理解、音乐编辑以及多模态音乐生成(文本/图像/视频到音乐生成)。
研究团队在模型的五种能力上分别和现有模型进行了一一对比,并在多模态音乐生成的三个子任务上(文本/图像/视频到音乐生成)做了主观评测实验,发现M2UGen模型性能均优于现有模型。
此外,由于没有很多合适数据集用于模型训练,研究团队还研发了一套数据生成方法,制作了MUCaps、MUEdit、MUImage、MUVideo四个数据集并发布。
目前团队已将模型代码库在Github开源,并在Huggingface上开放了模型权重和训练所需数据集(需申请)。
那么,M2UGen究竟是


原文链接:大模型学会听音乐了!风格乐器精准分析,还能剪辑合成

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...