Step-Audio-EditX

Step-Audio-EditX – 阶跃星辰开源的音频编辑大模型

Step-Audio-EditX，一项由阶跃星辰推出的开创性技术，荣获“全球首个 LLM 级音频编辑大模型”的桂冠。它以“情感、说话风格、副语言”这三大核心维度为基石，实现了对音频的精细化、迭代式操控。用户能够随心所欲地调整人物的喜怒哀乐，比如将愤怒、开心或悲伤的情绪强度进行任意的增加或削减。更令人惊叹的是，它还能叠加多种说话风格，例如将撒娇、耳语、老人等语调进行多次融合，赋予音频更丰富的表现力。此外，它还能如同字幕般精准地插入呼吸、笑声、叹气等 10 种自然的副语言标记（token），让音频更具真实感和生命力。

Step-Audio-EditX 的核心能力

情感操控：涵盖愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等数十种情感标签，支持多次迭代调整，以增强或减弱情感的表达力度。
风格塑造：提供撒娇、耳语、老人、小孩、严肃、慷慨、夸张等十余种多样的说话风格，并且支持这些风格的叠加与微调，为音频注入个性化色彩。
副语言注入：可以精确地在音频中植入呼吸、笑声、叹气、惊讶（oh/ah）、确认（en）、不满（hnn）、疑问（ei）、嗯（uhm）等 10 类自然发生的语音片段，提升音频的真实感。
零样本语音合成：无需任何目标人物的语音样本，即可精准克隆其音色。只需在文本前添加“”或“”等标签，便能即时切换方言，实现高效的跨语言合成。
迭代式精修：同一段语音可进行反复编辑，且不同属性（如情感与风格）之间相互，互不干扰，效果层层递进，逐步优化。
开源且高效：提供 8bit 量化版本，仅需 8GB 显存即可运行，在 4 张 A800/H800 显卡上可获得最佳音质表现。项目包含推理与训练代码，并提供 Gradio Demo 和 HF Space，方便用户体验和开发。

Step-Audio-EditX 的技术精髓

双码本音频分词技术：该技术并行运用了 16.7 Hz/1024 项的“语言码本”和 25 Hz/4096 项的“语义码本”。通过 2:3 的交错切片方式，将任意语音统一转化为离散的 token。这种方式能够忠实地保留语音中的情感和韵律信息，为后续 LLM 的直接操作构建了丰富的“语音词汇库”。
3B 音频大语言模型：模型以文本预训练的 3B 模型为基础进行热启动。通过将文本 token 与双码本音频 token 以格式拼接输入，模型仅输出音频 token。训练数据中，文本与音频的比例为 1:1，这充分利用了现有文本 LLM 生态的优势，实现了高效的后训练。
大间隔合成数据驱动：该模型无需引入额外的编码器或 adapter。仅通过使用“同文本、异属性（情感/风格/副语言）”的成对数据进行 SFT+PPO 训练。大间隔的训练方式迫使模型学习属性的解耦，从而实现迭代式的情感强度增减和多属性的叠加。
流匹配 + BigVGANv2 解码器：音频 LLM 输出的双码本 token，首先经过 DiT-流匹配模块生成 Mel 谱，然后由 BigVGANv2 声码器将其还原为音频波形。通过 200k 小时的高质量训练数据，确保了发音的准确性和音色的高度相似性。
统一化处理流程：一套完整的“分词→LLM→解码”管线，能够同时支持零样本 TTS、情感/风格/副语言编辑、语速调节以及降噪等多种功能。无需为不同任务配置专属模块，极大地简化了系统复杂度，并降低了推理成本。

Step-Audio-EditX 的项目入口

官方网站：https://stepaudiollm.github.io/step-audio-editx/
GitHub 仓库：https://github.com/stepfun-ai/Step-Audio-EditX
HuggingFace 模型库：https://huggingface.co/stepfun-ai/Step-Audio-EditX
技术论文（arXiv）：https://arxiv.org/pdf/2511.03601

Step-Audio-EditX 的应用前景

丰富有声内容：无论是音频书、播客还是新闻朗读，都可以通过一键叠加“开心/悲伤/耳语”等情绪或风格，无需重新录制，即可快速生成不同版本的音频，显著提升听众的沉浸式体验。
高效视频与广告配音：对于短视频、动画和广告片，可以实现零样本克隆角色音色，再通过迭代式编辑，添加“撒娇、夸张、严肃”等风格，从而以极低的成本实现多角色、多情绪的自动化配音。
赋能游戏与虚拟偶像：在游戏场景中，NPC 和虚拟主播（VTuber）可以通过一句参考语音克隆音色，并实时插入笑声、呼吸、叹气等副语言，打造更加生动、具备持续互动性的角色语音。
提升智能客服体验：智能客服机器人可以在原有 TTS 基础上，将“平淡的答复”转化为“热情/安抚”的情绪，从而显著改善用户体验。同时，支持方言标签，能够满足不同地域用户的个性化服务需求。
助力教育与语言学习：在线教育平台和语言学习 App 可以利用“老人/小孩/耳语”等风格生成适合不同年龄段的读音，或者将标准普通话即时切换为粤语、四川话，帮助学生更好地跟读模仿，并有效降低教师的录音成本。
优化会议记录与无障碍沟通：对于包含噪声或冗长停顿的会议录音，可以先进行“降噪+静音修剪”的编辑，再根据需求调整语速或加入情感表达，最终生成清晰、易于理解的会议纪要音频。

阅读原文