SongGeneration 2

AI工具15小时前更新 AI工具集
3 0 0

SongGeneration 2 – 腾讯联合清华开源的音乐生成模型

SongGeneration 2:AI赋能音乐创作的革新力量

SongGeneration 2,一项由腾讯与清华大手推出的突破性项目,正以其卓越的40亿参数音乐生成大模型,引领着音乐创作的新纪元。该模型巧妙地融合了LLM(大型语言模型)与扩散模型的优势,并辅以精巧的分层表征设计,成功实现了堪比商业级水准的音乐作品生成。尤为令人瞩目的是,其歌词生成准确率达到了令人惊叹的8.55% PER(音素错误率),这一成就甚至超越了Suno v5等业界领先的商业模型。

SongGeneration 2的亮点解析

SongGeneration 2不仅仅是一个音乐生成工具,它更像是一位才华横溢的音乐伙伴。这款由腾讯与清华大学共同研发的40亿参数音乐生成大模型,凭借其独树一帜的混合LLM-扩散架构和分层表征技术,能够产出具有商业级品质的音乐。其歌词的精准度达到了8.55% PER,这一指标使其在与Suno v5等商业模型的较量中脱颖而出,展现出强大的竞争力。SongGeneration 2还具备强大的多语种支持能力,能够驾驭中英文等多种语言,并能处理复杂的、多轨道的编曲。通过简单的文本描述或一段10秒的音频提示,用户就能精准地引导模型生成特定风格的音乐。更令人振奋的是,该模型能在仅需22GB显存的消费级硬件上实现本地运行,并且能够在短短一分钟内创作出一首完整的歌曲。

SongGeneration 2的核心功能一览

  • 卓越的歌曲生成能力:凭借先进的混合LLM-扩散架构,SongGeneration 2能够创作出长达4分30秒的完整歌曲,不仅旋律动听,而且编曲层次丰富,极具感染力。
  • 多语种歌词的精准演绎:该模型支持包括中文、英文、西班牙文、日文在内的多种语言歌词生成,并以仅8.55%的极低音素错误率,确保了歌词发音的清晰与准确。
  • 多元化的输出模式:SongGeneration 2提供了高度的灵活性,用户可以根据需求选择生成完整的歌曲、纯粹的器乐演奏、单独的人声演唱,或是将人声与伴奏分离成双音轨输出。
  • 精细化的风格调控:用户可以通过文本指令(如指定性别、曲风、情感基调、乐器类型)或提供一段10秒的音频样本,来精确地控制生成音乐的风格和氛围。
  • 灵活便捷的部署选择:对于本地用户,只需22GB显存即可流畅运行;对于寻求快速体验的用户,HuggingFace Space提供了在线便捷的试用入口,同时还提供低显存需求的适配方案,满足不同用户的需求。

SongGeneration 2背后的技术奥秘

  • 混合LLM-扩散架构的协同作用:在该模型中,语言模型(LeLM)扮演着“作曲家”的角色,负责全局音乐结构的规划和演奏细节的设计。而扩散模型则化身为“高保真渲染师”,在语言模型的指引下,细腻地合成复杂的声学细节。这种分工协作的模式,在保证音乐艺术性的同时,也确保了音质的卓越。
  • 分层表征建模的精妙之处:模型采用了并行建模的设计理念。其中,混合表征(Mixed Tokens)用于捕捉音乐的宏观旋律和整体结构语义;而多轨表征(Dual-Track Tokens)则分别处理人声和伴奏轨道精细的声学变化。
  • 自动化美学评估的赋能:通过构建一个包含11,717个专家标注样本的细粒度评估框架,SongGeneration 2得以将音乐性的先验知识注入模型训练过程。在推理阶段,模型还会引入基于音乐性标签的CFG(Classifier-Free Guidance)策略,进一步优化生成效果。
  • 三阶段渐进式后训练的优化路径:模型首先通过SFT(Supervised Fine-Tuning)收窄数据分布,构建高质量的基座模型。随后,利用大规模离线DPO(Direct Preference Optimization),通过20万对精心筛选的正负样本,有效消除歌词中的“幻觉”现象。最后,通过半在线DPO,周期性地更新模型,从而将音乐性的表现推向极致。

SongGeneration 2的项目入口

  • GitHub代码仓库:https://github.com/tencent-ailab/songgeneration
  • HuggingFace模型库:https://huggingface.co/tencent/SongGeneration

SongGeneration 2的广泛应用前景

  • 赋能音乐人创作:音乐人可以利用SongGeneration 2快速生成音乐Demo,验证创作灵感,极大地降低了编曲的门槛和制作成本。
  • 优化视频配乐制作:自媒体创作者可以根据视频的风格和情感需求,即时生成量身定制的背景音乐,提升视频的整体表现力。
  • 加速游戏音频开发:游戏开发商能够为不同的游戏场景、角色设定以及故事情节,批量生成适配的主题音乐和音效,丰富游戏体验。
  • 提升广告与营销效率:品牌方可以根据营销活动的调性,快速生成专属的广告歌曲(jingle),实现音频资产的高效迭代与创意更新。
  • 丰富教育与娱乐应用:音乐教学平台可以利用该模型生成风格多样的伴奏,而K歌和社交应用则能为用户提供个性化的歌曲创作体验,激发更多互动与乐趣。
阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...