Step-Audio-EditX

Step-Audio-EditX – 阶跃星辰开源的音频编辑大模型

Step-Audio-EditX,一项由阶跃星辰推出的开创性技术,荣获“全球首个 LLM 级音频编辑大模型”的桂冠。它以“情感、说话风格、副语言”这三大核心维度为基石,实现了对音频的精细化、迭代式操控。用户能够随心所欲地调整人物的喜怒哀乐,比如将愤怒、开心或悲伤的情绪强度进行任意的增加或削减。更令人惊叹的是,它还能叠加多种说话风格,例如将撒娇、耳语、老人等语调进行多次融合,赋予音频更丰富的表现力。此外,它还能如同字幕般精准地插入呼吸、笑声、叹气等 10 种自然的副语言标记(token),让音频更具真实感和生命力。

Step-Audio-EditX 的核心能力

  • 情感操控:涵盖愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等数十种情感标签,支持多次迭代调整,以增强或减弱情感的表达力度。
  • 风格塑造:提供撒娇、耳语、老人、小孩、严肃、慷慨、夸张等十余种多样的说话风格,并且支持这些风格的叠加与微调,为音频注入个性化色彩。
  • 副语言注入:可以精确地在音频中植入呼吸、笑声、叹气、惊讶(oh/ah)、确认(en)、不满(hnn)、疑问(ei)、嗯(uhm)等 10 类自然发生的语音片段,提升音频的真实感。
  • 零样本语音合成:无需任何目标人物的语音样本,即可精准克隆其音色。只需在文本前添加“”或“”等标签,便能即时切换方言,实现高效的跨语言合成。
  • 迭代式精修:同一段语音可进行反复编辑,且不同属性(如情感与风格)之间相互,互不干扰,效果层层递进,逐步优化。
  • 开源且高效:提供 8bit 量化版本,仅需 8GB 显存即可运行,在 4 张 A800/H800 显卡上可获得最佳音质表现。项目包含推理与训练代码,并提供 Gradio Demo 和 HF Space,方便用户体验和开发。

Step-Audio-EditX 的技术精髓

  • 双码本音频分词技术:该技术并行运用了 16.7 Hz/1024 项的“语言码本”和 25 Hz/4096 项的“语义码本”。通过 2:3 的交错切片方式,将任意语音统一转化为离散的 token。这种方式能够忠实地保留语音中的情感和韵律信息,为后续 LLM 的直接操作构建了丰富的“语音词汇库”。
  • 3B 音频大语言模型:模型以文本预训练的 3B 模型为基础进行热启动。通过将文本 token 与双码本音频 token 以格式拼接输入,模型仅输出音频 token。训练数据中,文本与音频的比例为 1:1,这充分利用了现有文本 LLM 生态的优势,实现了高效的后训练。
  • 大间隔合成数据驱动:该模型无需引入额外的编码器或 adapter。仅通过使用“同文本、异属性(情感/风格/副语言)”的成对数据进行 SFT+PPO 训练。大间隔的训练方式迫使模型学习属性的解耦,从而实现迭代式的情感强度增减和多属性的叠加。
  • 流匹配 + BigVGANv2 解码器:音频 LLM 输出的双码本 token,首先经过 DiT-流匹配模块生成 Mel 谱,然后由 BigVGANv2 声码器将其还原为音频波形。通过 200k 小时的高质量训练数据,确保了发音的准确性和音色的高度相似性。
  • 统一化处理流程:一套完整的“分词→LLM→解码”管线,能够同时支持零样本 TTS、情感/风格/副语言编辑、语速调节以及降噪等多种功能。无需为不同任务配置专属模块,极大地简化了系统复杂度,并降低了推理成本。

Step-Audio-EditX 的项目入口

  • 官方网站:https://stepaudiollm.github.io/step-audio-editx/
  • GitHub 仓库:https://github.com/stepfun-ai/Step-Audio-EditX
  • HuggingFace 模型库:https://huggingface.co/stepfun-ai/Step-Audio-EditX
  • 技术论文(arXiv):https://arxiv.org/pdf/2511.03601

Step-Audio-EditX 的应用前景

  • 丰富有声内容:无论是音频书、播客还是新闻朗读,都可以通过一键叠加“开心/悲伤/耳语”等情绪或风格,无需重新录制,即可快速生成不同版本的音频,显著提升听众的沉浸式体验。
  • 高效视频与广告配音:对于短视频、动画和广告片,可以实现零样本克隆角色音色,再通过迭代式编辑,添加“撒娇、夸张、严肃”等风格,从而以极低的成本实现多角色、多情绪的自动化配音。
  • 赋能游戏与虚拟偶像:在游戏场景中,NPC 和虚拟主播(VTuber)可以通过一句参考语音克隆音色,并实时插入笑声、呼吸、叹气等副语言,打造更加生动、具备持续互动性的角色语音。
  • 提升智能客服体验:智能客服机器人可以在原有 TTS 基础上,将“平淡的答复”转化为“热情/安抚”的情绪,从而显著改善用户体验。同时,支持方言标签,能够满足不同地域用户的个性化服务需求。
  • 助力教育与语言学习:在线教育平台和语言学习 App 可以利用“老人/小孩/耳语”等风格生成适合不同年龄段的读音,或者将标准普通话即时切换为粤语、四川话,帮助学生更好地跟读模仿,并有效降低教师的录音成本。
  • 优化会议记录与无障碍沟通:对于包含噪声或冗长停顿的会议录音,可以先进行“降噪+静音修剪”的编辑,再根据需求调整语速或加入情感表达,最终生成清晰、易于理解的会议纪要音频。
阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...