只给一张图,AI找到对应合适BGM,央音清华等构建全球化音乐信息检索新范式

打破模态与语言界限

只给一张图,AI找到对应合适BGM,央音清华等构建全球化音乐信息检索新范式

原标题:只给一张图,AI找到对应合适BGM,央音清华等构建全球化音乐信息检索新范式
文章来源:量子位
内容字数:6906字

CLaMP 3:开启跨模态、跨语言音乐信息检索新时代

音乐信息检索(MIR)一直面临着多模态数据复杂性和多语言文本理解的挑战。现有MIR系统多关注特定模态对,缺乏跨模态理解,且数据集主要以英语为主,限制了其泛化能力。为此,来自音乐学院、清华大学等机构的研究者提出了CLaMP 3,一个跨模态、跨语言的统一MIR框架。

1. CLaMP 3的核心突破

CLaMP 3通过对比学习,首次实现了乐谱、演奏信号、音频等音乐模态与多语言文本的联合对齐。不同模态之间可以通过文本桥接进行高效检索。其多语言文本编码器能够适应从未见过的语言,在跨语言检索任务上表现卓越。

2. 解决MIR面临的关键问题

CLaMP 3旨在解决MIR领域的三大难题:

  1. 多模态数据对齐难度高:乐谱、MIDI、音频等数据表示方式不同,CLaMP 3通过对比学习构建共享表示空间,统一处理不同模态。
  2. 多语言音乐信息检索受限:现有数据集多为英语,CLaMP 3构建了覆盖27种语言、194个国家的M4-RAG数据集,增强模型的跨语言泛化能力。
  3. 缺乏高质量的多模态-多语言数据:CLaMP 3利用检索增强生成(RAG)策略,构建了包含2.31M音乐-文本对的M4-RAG数据集,并包含详细的音乐元数据。

3. CLaMP 3的技术方法

CLaMP 3采用对比学习和检索增强生成(RAG)策略,构建统一的音乐表示空间。其训练策略借鉴ImageBind的思想,采用四阶段跨模态对齐,确保所有模态最终映射到统一的表示空间,避免模态漂移问题。

4. CLaMP 3的核心组件

CLaMP 3由多个基于Transformer的编码器组成:

  1. 多语言文本编码器:基于XLM-R-base,支持100种语言,具有强大的跨语言泛化能力。
  2. 符号音乐编码器:采用M3模型,处理ABC记谱和MIDI数据。
  3. 音频音乐编码器:基于MERT-v1-95M预训练特征,处理音频数据。

所有编码器的输出经过线性层和平均池化处理,生成全局语义特征,实现不同模态数据的对齐。

5. 数据集:M4-RAG和WikiMT-X

CLaMP 3的训练依赖于大规模数据集M4-RAG,包含2.31M音乐-文本对,涵盖27种语言和194个国家。研究团队还推出了WikiMT-X基准数据集,包含1000个样本,推动跨模态音乐理解研究。

6. 实验结果与结论

CLaMP 3在多个MIR任务上取得了SOTA性能,在跨模态、跨语言检索任务中展现了卓越的泛化能力,即使在未见过的语言上也能取得优异表现。CLaMP 3的成功标志着跨模态、跨语言MIR进入了一个新的时代。

项目相关链接:

项目主页:https://sanderwood.github.io/clamp3

在线Demo:https://huggingface.co/spaces/sander-wood/clamp3

GitHub代码:https://github.com/sanderwood/clamp3


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...