只给一张图，AI找到对应合适BGM，央音清华等构建全球化音乐信息检索新范式

打破模态与语言界限

原标题：只给一张图，AI找到对应合适BGM，央音清华等构建全球化音乐信息检索新范式
文章来源：量子位
内容字数：6906字

音乐信息检索（MIR）一直面临着多模态数据复杂性和多语言文本理解的挑战。现有MIR系统多关注特定模态对，缺乏跨模态理解，且数据集主要以英语为主，限制了其泛化能力。为此，来自音乐学院、清华大学等机构的研究者提出了CLaMP 3，一个跨模态、跨语言的统一MIR框架。

CLaMP 3通过对比学习，首次实现了乐谱、演奏信号、音频等音乐模态与多语言文本的联合对齐。不同模态之间可以通过文本桥接进行高效检索。其多语言文本编码器能够适应从未见过的语言，在跨语言检索任务上表现卓越。

CLaMP 3旨在解决MIR领域的三大难题：

多模态数据对齐难度高：乐谱、MIDI、音频等数据表示方式不同，CLaMP 3通过对比学习构建共享表示空间，统一处理不同模态。
多语言音乐信息检索受限：现有数据集多为英语，CLaMP 3构建了覆盖27种语言、194个国家的M4-RAG数据集，增强模型的跨语言泛化能力。
缺乏高质量的多模态-多语言数据：CLaMP 3利用检索增强生成（RAG）策略，构建了包含2.31M音乐-文本对的M4-RAG数据集，并包含详细的音乐元数据。

CLaMP 3采用对比学习和检索增强生成（RAG）策略，构建统一的音乐表示空间。其训练策略借鉴ImageBind的思想，采用四阶段跨模态对齐，确保所有模态最终映射到统一的表示空间，避免模态漂移问题。

CLaMP 3由多个基于Transformer的编码器组成：

所有编码器的输出经过线性层和平均池化处理，生成全局语义特征，实现不同模态数据的对齐。

CLaMP 3的训练依赖于大规模数据集M4-RAG，包含2.31M音乐-文本对，涵盖27种语言和194个国家。研究团队还推出了WikiMT-X基准数据集，包含1000个样本，推动跨模态音乐理解研究。

CLaMP 3在多个MIR任务上取得了SOTA性能，在跨模态、跨语言检索任务中展现了卓越的泛化能力，即使在未见过的语言上也能取得优异表现。CLaMP 3的成功标志着跨模态、跨语言MIR进入了一个新的时代。

项目相关链接：

项目主页：https://sanderwood.github.io/clamp3

在线Demo：https://huggingface.co/spaces/sander-wood/clamp3

GitHub代码：https://github.com/sanderwood/clamp3

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

文章版权归作者所有，未经允许请勿转载。

暂无评论...