SongGen

SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

SongGen是什么

SongGen是由上海AI Lab、北京航空航天大学和香港中文大合开发的一种先进的单阶段自回归Transformer模型，主要用于根据文本生成歌曲。该模型以歌词及描述性文本（如乐器、风格、情感等）为输入，提供两种输出模式：混合模式和模式。混合模式用于生成包含人声和伴奏的合成音频，而模式则分别生声和伴奏，便于后期编辑和处理。SongGen通过创新的音频标记化技术和训练策略，显著提升了生成歌曲的自然性和人声的清晰度，有效解决了传统多阶段生成方法中复杂的训练和推理流程。它的开源特性和高质量的数据集为未来的音乐生成研究奠定了新的基准。

SongGen

SongGen的主要功能

精细控制：用户可以基于歌词和描述性文本（如乐器、风格、情感等）对生成的歌曲进行精准控制。
声音克隆：支持通过三秒的参考音频实现声音克隆，使生成的歌曲能够呈现特定歌手的音色特征。
双重生成模式：提供“混合模式”（直接生声与伴奏的混合音频）和“模式”（分别生成便于后期编辑的人声和伴奏）。
高质量音频输出：通过优化的音频标记化和训练策略，生成自然度高且人声清晰的歌曲。

SongGen的技术原理

自回归生成框架：利用自回归Transformer解码器，将歌词和描述性文本编码为条件输入，运用交叉注意力机制引导音频标记生成。
音频标记化：采用X-Codec将音频信号转换为离散的音频标记，支持在多代码序列中进行高效生成。
混合模式与模式：
- 混合模式：直接生成混合音频标记，并引入辅助人声音频标记预测目标（Mixed Pro），提升人声清晰度。
- 模式：在平行或交错的模式下分别生成声道标记，确保人声与伴奏在帧级别上的精准对齐，从而提高生成质量。
条件输入编码：
- 歌词编码：使用VoiceBPE分词器将歌词转化为音素级标记，配合小型Transformer编码器提取关键发音信息。
- 声音编码：MERT模型用于提取参考音频的音色特征，支持声音克隆的实现。
- 文本描述编码：FLAN-T5模型将描述性文本编码为特征向量，从而提供音乐风格、情感等方面的控制。
训练策略：
- 多阶段训练：包括模态对齐、无参考音频支持和高质量微调，逐步提升模型的性能。
- 课程学习：逐步调整代码本损失权重，以优化模型对音频细节的学习能力。
- 数据预处理：开发自动化数据预处理管道，从多种数据源收集音频，分离人声与伴奏，生成高质量的歌词和描述性文本数据集。