SongGeneration 2

SongGeneration 2 – 腾讯联合清华开源的音乐生成模型

SongGeneration 2：AI赋能音乐创作的革新力量

SongGeneration 2，一项由腾讯与清华大手推出的突破性项目，正以其卓越的40亿参数音乐生成大模型，引领着音乐创作的新纪元。该模型巧妙地融合了LLM（大型语言模型）与扩散模型的优势，并辅以精巧的分层表征设计，成功实现了堪比商业级水准的音乐作品生成。尤为令人瞩目的是，其歌词生成准确率达到了令人惊叹的8.55% PER（音素错误率），这一成就甚至超越了Suno v5等业界领先的商业模型。

SongGeneration 2的亮点解析

SongGeneration 2不仅仅是一个音乐生成工具，它更像是一位才华横溢的音乐伙伴。这款由腾讯与清华大学共同研发的40亿参数音乐生成大模型，凭借其独树一帜的混合LLM-扩散架构和分层表征技术，能够产出具有商业级品质的音乐。其歌词的精准度达到了8.55% PER，这一指标使其在与Suno v5等商业模型的较量中脱颖而出，展现出强大的竞争力。SongGeneration 2还具备强大的多语种支持能力，能够驾驭中英文等多种语言，并能处理复杂的、多轨道的编曲。通过简单的文本描述或一段10秒的音频提示，用户就能精准地引导模型生成特定风格的音乐。更令人振奋的是，该模型能在仅需22GB显存的消费级硬件上实现本地运行，并且能够在短短一分钟内创作出一首完整的歌曲。

SongGeneration 2的核心功能一览

卓越的歌曲生成能力：凭借先进的混合LLM-扩散架构，SongGeneration 2能够创作出长达4分30秒的完整歌曲，不仅旋律动听，而且编曲层次丰富，极具感染力。
多语种歌词的精准演绎：该模型支持包括中文、英文、西班牙文、日文在内的多种语言歌词生成，并以仅8.55%的极低音素错误率，确保了歌词发音的清晰与准确。
多元化的输出模式：SongGeneration 2提供了高度的灵活性，用户可以根据需求选择生成完整的歌曲、纯粹的器乐演奏、单独的人声演唱，或是将人声与伴奏分离成双音轨输出。
精细化的风格调控：用户可以通过文本指令（如指定性别、曲风、情感基调、乐器类型）或提供一段10秒的音频样本，来精确地控制生成音乐的风格和氛围。
灵活便捷的部署选择：对于本地用户，只需22GB显存即可流畅运行；对于寻求快速体验的用户，HuggingFace Space提供了在线便捷的试用入口，同时还提供低显存需求的适配方案，满足不同用户的需求。

SongGeneration 2背后的技术奥秘

混合LLM-扩散架构的协同作用：在该模型中，语言模型（LeLM）扮演着“作曲家”的角色，负责全局音乐结构的规划和演奏细节的设计。而扩散模型则化身为“高保真渲染师”，在语言模型的指引下，细腻地合成复杂的声学细节。这种分工协作的模式，在保证音乐艺术性的同时，也确保了音质的卓越。
分层表征建模的精妙之处：模型采用了并行建模的设计理念。其中，混合表征（Mixed Tokens）用于捕捉音乐的宏观旋律和整体结构语义；而多轨表征（Dual-Track Tokens）则分别处理人声和伴奏轨道精细的声学变化。
自动化美学评估的赋能：通过构建一个包含11,717个专家标注样本的细粒度评估框架，SongGeneration 2得以将音乐性的先验知识注入模型训练过程。在推理阶段，模型还会引入基于音乐性标签的CFG（Classifier-Free Guidance）策略，进一步优化生成效果。
三阶段渐进式后训练的优化路径：模型首先通过SFT（Supervised Fine-Tuning）收窄数据分布，构建高质量的基座模型。随后，利用大规模离线DPO（Direct Preference Optimization），通过20万对精心筛选的正负样本，有效消除歌词中的“幻觉”现象。最后，通过半在线DPO，周期性地更新模型，从而将音乐性的表现推向极致。

SongGeneration 2的项目入口

GitHub代码仓库：https://github.com/tencent-ailab/songgeneration
HuggingFace模型库：https://huggingface.co/tencent/SongGeneration

SongGeneration 2的广泛应用前景

赋能音乐人创作：音乐人可以利用SongGeneration 2快速生成音乐Demo，验证创作灵感，极大地降低了编曲的门槛和制作成本。
优化视频配乐制作：自媒体创作者可以根据视频的风格和情感需求，即时生成量身定制的背景音乐，提升视频的整体表现力。
加速游戏音频开发：游戏开发商能够为不同的游戏场景、角色设定以及故事情节，批量生成适配的主题音乐和音效，丰富游戏体验。
提升广告与营销效率：品牌方可以根据营销活动的调性，快速生成专属的广告歌曲（jingle），实现音频资产的高效迭代与创意更新。
丰富教育与娱乐应用：音乐教学平台可以利用该模型生成风格多样的伴奏，而K歌和社交应用则能为用户提供个性化的歌曲创作体验，激发更多互动与乐趣。

阅读原文

# AI工具 # AI项目和框架 # AI音乐创作工具 # 个性化音乐定制 # 歌词创作助手 # 自动生成歌曲旋律 # 音乐风格模仿器

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...