打破模态与语言界限
原标题:只给一张图,AI找到对应合适BGM,央音清华等构建全球化音乐信息检索新范式
文章来源:量子位
内容字数:6906字
CLaMP 3:开启跨模态、跨语言音乐信息检索新时代
音乐信息检索(MIR)一直面临着多模态数据复杂性和多语言文本理解的挑战。现有MIR系统多关注特定模态对,缺乏跨模态理解,且数据集主要以英语为主,限制了其泛化能力。为此,来自音乐学院、清华大学等机构的研究者提出了CLaMP 3,一个跨模态、跨语言的统一MIR框架。
1. CLaMP 3的核心突破
CLaMP 3通过对比学习,首次实现了乐谱、演奏信号、音频等音乐模态与多语言文本的联合对齐。不同模态之间可以通过文本桥接进行高效检索。其多语言文本编码器能够适应从未见过的语言,在跨语言检索任务上表现卓越。
2. 解决MIR面临的关键问题
CLaMP 3旨在解决MIR领域的三大难题:
- 多模态数据对齐难度高:乐谱、MIDI、音频等数据表示方式不同,CLaMP 3通过对比学习构建共享表示空间,统一处理不同模态。
- 多语言音乐信息检索受限:现有数据集多为英语,CLaMP 3构建了覆盖27种语言、194个国家的M4-RAG数据集,增强模型的跨语言泛化能力。
- 缺乏高质量的多模态-多语言数据:CLaMP 3利用检索增强生成(RAG)策略,构建了包含2.31M音乐-文本对的M4-RAG数据集,并包含详细的音乐元数据。
3. CLaMP 3的技术方法
CLaMP 3采用对比学习和检索增强生成(RAG)策略,构建统一的音乐表示空间。其训练策略借鉴ImageBind的思想,采用四阶段跨模态对齐,确保所有模态最终映射到统一的表示空间,避免模态漂移问题。
4. CLaMP 3的核心组件
CLaMP 3由多个基于Transformer的编码器组成:
- 多语言文本编码器:基于XLM-R-base,支持100种语言,具有强大的跨语言泛化能力。
- 符号音乐编码器:采用M3模型,处理ABC记谱和MIDI数据。
- 音频音乐编码器:基于MERT-v1-95M预训练特征,处理音频数据。
所有编码器的输出经过线性层和平均池化处理,生成全局语义特征,实现不同模态数据的对齐。
5. 数据集:M4-RAG和WikiMT-X
CLaMP 3的训练依赖于大规模数据集M4-RAG,包含2.31M音乐-文本对,涵盖27种语言和194个国家。研究团队还推出了WikiMT-X基准数据集,包含1000个样本,推动跨模态音乐理解研究。
6. 实验结果与结论
CLaMP 3在多个MIR任务上取得了SOTA性能,在跨模态、跨语言检索任务中展现了卓越的泛化能力,即使在未见过的语言上也能取得优异表现。CLaMP 3的成功标志着跨模态、跨语言MIR进入了一个新的时代。
项目相关链接:
项目主页:https://sanderwood.github.io/clamp3
在线Demo:https://huggingface.co/spaces/sander-wood/clamp3
GitHub代码:https://github.com/sanderwood/clamp3
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破