MuCodec:超低比特率音乐编解码器实现高保真音质与极致压缩效率

AI工具1个月前发布 AI工具集
8 0 0

MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室及香港中文大学的研究团队共同开发的一款超低比特率音乐编解码器,旨在实现音乐的高效压缩与高保真重建。这款编解码器借助MuEncoder提取音乐的声学和语义特征,利用RVQ技术进行特征离散化,并通过流匹配方法重建Mel-VAE特征,最终在比特率范围0.35kbps至1.35kbps之间实现行业领先的压缩效率和音质。

MuCodec是什么

MuCodec是一个创新的超低比特率音乐编解码器,由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学的研究者联合开发。该技术能够高效地压缩音乐文件,同时在重建时保持高保真度。MuCodec通过MuEncoder提取音乐的声学和语义特征,采用RVQ技术进行特征离散化,并运用流匹配方法重建Mel-VAE特征。最终,利用预训练的Mel-VAE解码器和HiFi-GAN生成重建音乐,确保在极低比特率下依然能够提供优质音频体验。

MuCodec:超低比特率音乐编解码器实现高保真音质与极致压缩效率

MuCodec的主要功能

  • 高效音乐压缩:MuCodec能够在极低的比特率下有效压缩音乐,支持超低至0.35kbps的比特率。
  • 高保真重建:在超低比特率的条件下,能重建出高质量的音乐。
  • 特征提取:利用MuEncoder提取音乐的声学与语义特征,捕捉音乐的核心特性。
  • 离散化处理:采用RVQ(Residual Vector Quantization)技术对提取特征进行离散化,便于压缩处理。
  • 流匹配重建:采用流匹配方法重建Mel-VAE特征,实现音频的精细重建。
  • 双比特率支持:可在低(0.35kbps)和高(1.35kbps)比特率下灵活运作,满足多样化的应用需求。

MuCodec的技术原理

  • MuEncoder:MuEncoder作为特征提取工具,专注于人声和背景音乐两个关键方面,提取声学和语义特征。
  • 两阶段训练
    • 第一阶段:利用掩码语言模型(Mask Language Model)约束学习,预测掩码区域,并基于未掩码的音频信号增强上下文信息的感知能力。
    • 第二阶段:引入重建和歌词识别约束,涵盖Mel频谱图和CQT(Constant-Q Transform)特征的重建,确保提取特征包含丰富的语义信息。
  • RVQ(Residual Vector Quantization):采用RVQ技术对MuEncoder特征进行离散化,基于残差过程实现有效的压缩表示,并采用级联码本提供更精细的近似。
  • 流匹配:通过流匹配方法进行重建,该方法相比于GAN(Generative Adversarial Networks)训练更为稳定,且在超低比特率任务中能取得更优的重建效果。流匹配使用离散化的MuEncoder表示作为条件,基于Diffusion Transformer进行精细重建。
  • Mel-VAE解码器与HiFi-GAN:通过预训练的Mel-VAE解码器恢复重建的Mel频谱图,最终使用预训练的HiFi-GAN生成重建后的音乐。

MuCodec的项目地址

MuCodec的应用场景

  • 在线音乐流媒体服务:在保证音质的前提下,有效减少音乐文件的大小,帮助在线音乐流媒体服务提供商降低存储和带宽成本。
  • 音乐下载:用户能够下载更小体积的音乐文件,从而节省存储空间,并在移动设备上降低数据消耗。
  • 语言模型建设:在构建需要处理短序列音乐数据的语言模型时,MuCodec能够有效压缩音乐数据,提高处理效率。
  • 音频编辑和处理软件:音频编辑软件可以集成MuCodec作为音频压缩和重建的工具,以提高音频处理的效率。
  • 移动设备和嵌入式系统:在存储与计算资源有限的移动设备或嵌入式系统中,MuCodec能在保持音质的同时有效减少资源消耗。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...