Chatterbox-TTS-Extended 是基于 Chatterbox-TTS 的增强型文本到语音(TTS)工具链,专为需要灵活控制和高质量输出的高级用户设计。它不仅支持单次和批量语音合成,还集成了音频后处理、语音转换(VC)、Whisper 验证等功能,适用于从语音生成到内容制作的完整工作流。
本文将详细介绍其主要功能、技术亮点、工作流程以及使用建议,帮助你全面了解这款强大工具的能力。

📌 主要功能一览
| 功能 | 用户界面支持 | 脚本支持 |
|---|---|---|
| 文本输入(文本框 + 多文件上传) | ✔ | ✔ |
| 参考音频(条件输入) | ✔ | ✔ |
| 分离/合并输出 | ✔ | ✔ |
| 情感、CFG、温度、种子调节 | ✔ | ✔ |
| 批量/智能追加/句子分割 | ✔ | ✔ |
| 声音词移除/替换 | ✔ | ✔ |
| 内联参考编号处理 | ✔ | ✔ |
| 点字母修正(如 J.R.R.) | ✔ | ✔ |
| 小写与空白规范化 | ✔ | ✔ |
| Auto-Editor 后处理 | ✔ | ✔ |
| FFmpeg 规范化(EBU / 峰值) | ✔ | ✔ |
| WAV / MP3 / FLAC 导出 | ✔ | ✔ |
| 候选数量、重试、回退机制 | ✔ | ✔ |
| 并行处理(多线程) | ✔ | ✔ |
| Whisper / faster-whisper 验证 | ✔ | ✔ |
| 设置持久化(JSON / CSV) | ✔ | ✔ |
| 设置导入 / 导出 | ✔ | ✔ |
| 音频预览与下载 | ✔ | ✔ |
| 帮助面板(折叠式) | ✔ | ✔ |
| 语音转换(VC)选项卡 | ✔ | ✔ |
🔤 文本输入与文件处理
✍️ 文本输入
- 支持手动输入或拖放多个
.txt文件。 - 可选择合并所有文本生成一个音频,或按文件分别生成独立输出。
- 输出文件名包含时间戳、参数信息,便于追踪与复用。
🎙️ 参考音频输入
- 支持上传或录制参考语音样本。
- TTS 引擎将模仿该样本的语调、风格或情感。
- 即使参考音频缺失或无效,也能优雅降级并继续生成。
🎛️ 语音控制参数
💬 情感控制
- 提供滑块控制情感强度(0 = 中性,1 = 正常,2 = 夸张)
📏 CFG 权重 & 语速
- 控制语音的严格程度和语速:
- 高值:字面表达、单调
- 低值:富有表现力、自然流畅
🌡️ 温度(Temperature)
- 控制语音生成的随机性,影响多样性和自然度。
🔁 随机种子(Seed)
- 0 表示每次生成不同结果;指定数字则实现可重复生成。
📦 批量处理与分块策略
🧩 自动分块
- 默认每块最多 300 字符(可配置),避免长句导致发音问题。
- 支持递归拆分长句,在标点处自动断开。
⚡ 智能短句合并
- 若关闭批量处理,系统会自动合并过短句子,提升韵律连贯性。
🔄 并行处理
- 支持多线程并发生成,提高整体效率。
- 用户可自定义线程数,适应不同硬件配置。
🧹 文本预处理功能
- 小写转换:统一格式,避免大小写干扰发音。
- 空白规范化:去除多余空格与换行。
- 点字母修正:如
J.R.R.→J R R,提升首字母缩写识别。 - 内联参考编号移除:自动清理如
.188或.”3类似标记。 - 声音词过滤:可自定义需删除的语气词(如 um, ahh)或映射替换(如 zzz ⇒ sigh)。
🎧 音频后处理能力
🗂️ Auto-Editor 集成
- 自动生成后自动修剪静音、口吃、伪影。
- 参数可调(阈值、边距),支持保留原始未剪辑文件。
🔊 FFmpeg 规范化
- 支持 EBU R128 标准响度控制(目标响度、动态范围、真峰值)。
- 快速峰值规范化,防止削波失真。
- 所有参数均可由用户自由调整。
📥 导出与输出管理
- 导出格式:WAV(无损)、MP3(320kbps)、FLAC(无损压缩)。
- 文件命名规则:基础名称 + 时间戳 + 参数标识 + 种子,便于管理和追溯。
- 分离输出模式:每个文本文件单独生成音频,避免混淆。
🧪 生成质量控制机制
📈 候选生成与验证
- 每个段落可生成多个候选音频(“takes”)。
- 最大尝试次数可设,失败时进行重试。
- 使用 Whisper/faster-whisper 对音频进行验证,选择与原文最接近的候选。
- 可绕过验证以提高速度,但可能引入伪影。
🔄 回退策略
- 当所有候选失败时,自动选择最长转录或相似度最高者作为替代。
🧠 Whisper 同步与验证
- 模型选择:支持 OpenAI Whisper 和 SYSTRAN 的 faster-whisper,多种模型尺寸可选。
- 显存提示:界面上显示预期显存占用,便于资源管理。
- 每块验证:对每个音频片段进行语音识别比对。
- 可绕过设置:完全跳过 Whisper 以加快流程。
⚙️ 性能优化与并行处理
- 多线程支持:默认启用 4 个工作线程,用户可调整。
- 内存管理:Whisper 使用后自动释放 GPU 显存,防止泄漏。
- 低内存调试模式:设置线程数为 1,用于调试或低配设备运行。
💾 设置持久化与用户界面
- JSON/CSS 设置保存:每个输出附带
.settings.json和.settings.csv,记录完整生成参数。 - Gradio 全功能 UI:提供开关、滑块、下拉菜单、复选框等控件,交互友好。
- 音频预览与下载:直接在界面上试听或下载任意生成音频。
- 帮助面板:折叠式说明区,详细解释每一项功能用途。
🎙️ 语音转换(VC)选项卡
功能概述
语音转换(Voice Conversion)模块允许你:
- 上传一段“源语音”
- 上传或录制一段“目标语音”
- 点击“运行转换”,即可获得相同内容、但使用目标语音的新音频
技术亮点
- 自动分块处理:长音频被切分为重叠片段,通过交叉淡入淡出无缝拼接。
- 采样率匹配:输出音频与模型采样率一致,保证保真度。
- 去水印选项:可根据需求禁用水印。
🛠️ 使用技巧与常见问题
❗ 显存不足或运行缓慢?
- 减少并行线程数
- 使用更轻量级的 Whisper 模型
- 降低候选数量
🎵 生成音频有伪影?
- 增加候选数量或重试次数
- 调整 Auto-Editor 阈值和边距
- 优化声音词替换规则
🎧 音频不连贯?
- 增加 Auto-Editor 边距
- 适当降低阈值
🔁 如何确保结果可重现?
- 使用固定种子(seed)
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















