ACE-Step 1.5 – ACE Studio联合StepFun开源的音乐生成模型
ACE-Step 1.5:消费级硬件上的商业级音乐创作新篇章
ACE-Step 1.5,这一由ACE Studio与StepFun携手打造的开源音乐生成基础模型,正以前所未有的方式重塑音乐创作的格局。它成功地将过去需要昂贵专业设备才能实现的商业级音乐生成能力,带入了普通消费级硬件的范畴。该模型的核心优势在于其巧妙的混合架构:一个语言模型扮演“规划师”的角色,负责将用户的创意描述转化为精确的歌曲蓝图;而Diffusion Transformer则专注于声学渲染,将蓝图转化为高保真的音频。这种协同工作模式,使得ACE-Step 1.5在效率与质量上均实现了飞跃。
核心能力与效率突破
ACE-Step 1.5的性能令人瞩目。通过先进的4到8步蒸馏推理技术,它能在A100 GPU上仅用2秒钟就完成一首4分钟歌曲的生成,即使在主流的RTX 3090上,也只需大约10秒。更令人振奋的是,其显存占用低于4GB,极大地降低了本地部署的门槛。除了快速生成,模型还具备强大的编辑和控制能力,支持超过50种语言的歌词演唱,并提供音频重绘、翻唱、人声分离、层叠编曲和续写补全等六大编辑功能。对于追求独特音色的用户,只需少量参考歌曲,即可通过LoRA微调快速训练出个性化的风格模型。
技术基石:解耦与高效推理
ACE-Step 1.5的技术精髓在于其“混合推理-扩散架构”。它巧妙地将复杂的音乐生成任务拆分为“规划”和“渲染”两个阶段。基于Qwen3-0.6B的语言模型充当“智能作曲家”,利用思维链推理将自然语言提示转化为结构化的YAML蓝图(包含BPM、调性、歌词等信息)。随后,约20亿参数的Diffusion Transformer(DiT)接管声学渲染工作。这种职责划分,使得DiT可以专注于高保真音频的生成,而LM则负责处理跨语言的稳健对齐。
为实现极致效率,团队引入了创新的“对抗动态偏移蒸馏技术”(Decoupled DMD2)。该技术通过引入GAN目标和隐空间判别器,并随机采样偏移参数,使模型在学习过程中接触到更丰富的去噪状态,从而避免了传统固定步长训练的局限性。这种优化将推理步数从50步锐减至4-8步,实现了高达200倍的加速,并且对抗反馈机制甚至帮助学生模型在音质上超越了教师模型。
内在对齐与统一框架
在确保生成内容的准确性与同步性方面,ACE-Step 1.5构建了一套内在强化学习框架。对于DiT部分,通过“注意力对齐分数”(AAS)作为内在奖励,利用动态时间规整技术衡量歌词标记的覆盖率和注意力路径的可靠性,确保了歌词与音频的同步率与人类判断高度相关(超过95%)。对于语言模型,则采用了GRPO算法,通过点互信息(PMI)构建奖励模型,激励模型在扮演“作曲家”和“听众”双重角色时,奖励特异性描述而非通用术语。
此外,模型采用有限标量量化(FSQ)技术,将连续音频隐变量压缩为离散的5Hz代码本表示。这一统一的掩码生成框架,使得单一模型能够灵活处理文本到音乐、翻唱、重绘、音轨提取、层叠和续写等多种模态任务,确保了在不同编辑操作中旋律和节奏元素的高保真度。
应用前景广阔
ACE-Step 1.5的问世,为音乐产业带来了多方面的应用潜力。对于专业音乐人而言,它是一个强大的灵感催化剂,能够迅速将抽象概念转化为可编辑的音乐草稿。内容创作者可以利用LoRA功能,为视频、播客或游戏项目批量定制符合品牌调性的背景音乐。其对50多种语言的精准支持,也极大地便利了全球化音乐的发行与跨文化合作。对于音乐教育领域,用户可以输入复杂的音乐理论术语,即时观察其生成效果,从而获得更直观的学习体验。
获取与体验资源
想要深入了解或体验ACE-Step 1.5,可以访问以下官方渠道:
项目官网:https://ace-step.github.io/ace-step-v1.5.github.io/
GitHub 仓库:https://github.com/ace-step/ACE-Step-1.5
技术论文(arXiv):https://arxiv.org/pdf/2602.00744
在线体验平台:https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5


粤公网安备 44011502001135号