阶跃星辰开源 Step-Audio-EditX：首个基于 LLM 的迭代式音频编辑模型

163 0

阶跃星辰（Step AI）正式发布 Step-Audio-EditX —— 一款革命性的基于大语言模型（LLM）的音频编辑系统，首次实现对语音情感、说话风格与副语言特征的高精度、迭代式、零样本控制，并支持多语言语音克隆。它标志着音频生成从“一次性合成”迈向“可编辑、可演化”的新阶段。

项目主页：https://stepaudiollm.github.io/step-audio-editx
GitHub：https://github.com/stepfun-ai/Step-Audio-EditX
模型：https://huggingface.co/stepfun-ai/Step-Audio-EditX
Demo：https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

阶跃星辰开源 Step-Audio-EditX：首个基于 LLM 的迭代式音频编辑模型

核心能力：让语音像文本一样可编辑

Step-Audio-EditX 不是另一个 TTS 模型，而是一个音频编辑器——你只需用文本指令，就能像修改 Word 文档一样修改语音：

编辑类型	支持指令示例	效果
情感编辑	`[Angry]`、`[Sad]`、`[Excited]`	将平静的语音转为愤怒、悲伤或兴奋，强度可迭代增强
说话风格	`[Whisper]`、`[Exaggerated]`、`[Child]`、`[Older]`	让语音变轻柔、夸张、童声或苍老，自然不突兀
副语言特征	`[Laughter]`、`[Sigh]`、`[Uhm]`、`[Surprise-ah]`	在语音中精准插入叹息、笑声、停顿、惊讶语气等人类化细节
零样本语音克隆	`“[Sichuanese] 我今天好开心” + 参考音频`	仅需1秒参考语音，即可克隆普通话、英语、四川话、粤语等方言音色

💡 无需训练：所有编辑均在零样本（Zero-Shot）下完成，无需为目标音色或风格单独微调。

技术突破：大边距训练 + LLM 音频编码

Step-Audio-EditX 的核心创新在于其去耦合、数据驱动的训练范式：

组件	说明
双码本音频编码器	将语音转化为两个离散标记序列，分别编码内容与风格/情感特征
音频 LLM	基于文本 LLM 初始化，训练于海量合成音频对，理解“如何改”
流匹配解码器	将编辑后的标记序列还原为高质量语音波形

训练方法：大边距合成数据

不依赖人工标注或辅助模块，而是自动生成“强对比”音频对：
例：同一句话，生成“平静版”与“愤怒版”，确保差异显著（大边距）；
用评分模型筛选“最具表现力”的样本用于训练，让模型学会聚焦关键变化。

强化学习优化

结合人类偏好与 LLM 评分，使用 PPO 算法微调，提升复杂编辑的自然度与一致性。

性能表现：超越传统 TTS 系统

能力	表现
情感/风格编辑准确率	单次迭代提升显著，多次迭代后接近人类意图匹配
副语言控制精度	可在语音中精准插入笑声、叹息、犹豫词等，自然度远超传统方法
跨系统泛化能力	在 ElevenLabs、Doubao、MiniMax 等闭源 TTS 系统上测试，显著提升其编辑能力
方言克隆	四川话、粤语克隆质量媲美专业模型，仅需添加 `[Sichuanese]` / `[Cantonese]` 标签