Chatterbox-TTS-Extended ：全能 TTS 工具链支持语音转换与高质量音频生成

324 0

Chatterbox-TTS-Extended 是基于 Chatterbox-TTS 的增强型文本到语音（TTS）工具链，专为需要灵活控制和高质量输出的高级用户设计。它不仅支持单次和批量语音合成，还集成了音频后处理、语音转换（VC）、Whisper 验证等功能，适用于从语音生成到内容制作的完整工作流。

GitHub：https://github.com/petermg/Chatterbox-TTS-Extended

本文将详细介绍其主要功能、技术亮点、工作流程以及使用建议，帮助你全面了解这款强大工具的能力。

📌 主要功能一览

功能	用户界面支持	脚本支持
文本输入（文本框 + 多文件上传）	✔	✔
参考音频（条件输入）	✔	✔
分离/合并输出	✔	✔
情感、CFG、温度、种子调节	✔	✔
批量/智能追加/句子分割	✔	✔
声音词移除/替换	✔	✔
内联参考编号处理	✔	✔
点字母修正（如 J.R.R.）	✔	✔
小写与空白规范化	✔	✔
Auto-Editor 后处理	✔	✔
FFmpeg 规范化（EBU / 峰值）	✔	✔
WAV / MP3 / FLAC 导出	✔	✔
候选数量、重试、回退机制	✔	✔
并行处理（多线程）	✔	✔
Whisper / faster-whisper 验证	✔	✔
设置持久化（JSON / CSV）	✔	✔
设置导入 / 导出	✔	✔
音频预览与下载	✔	✔
帮助面板（折叠式）	✔	✔
语音转换（VC）选项卡	✔	✔

🔤 文本输入与文件处理

✍️ 文本输入

支持手动输入或拖放多个 .txt 文件。
可选择合并所有文本生成一个音频，或按文件分别生成独立输出。
输出文件名包含时间戳、参数信息，便于追踪与复用。

🎙️ 参考音频输入

支持上传或录制参考语音样本。
TTS 引擎将模仿该样本的语调、风格或情感。
即使参考音频缺失或无效，也能优雅降级并继续生成。

🎛️ 语音控制参数

💬 情感控制

提供滑块控制情感强度（0 = 中性，1 = 正常，2 = 夸张）

📏 CFG 权重 & 语速

控制语音的严格程度和语速：
- 高值：字面表达、单调
- 低值：富有表现力、自然流畅

🌡️ 温度（Temperature）

控制语音生成的随机性，影响多样性和自然度。

🔁 随机种子（Seed）

0 表示每次生成不同结果；指定数字则实现可重复生成。

📦 批量处理与分块策略

🧩 自动分块

默认每块最多 300 字符（可配置），避免长句导致发音问题。
支持递归拆分长句，在标点处自动断开。

⚡ 智能短句合并

若关闭批量处理，系统会自动合并过短句子，提升韵律连贯性。

🔄 并行处理

支持多线程并发生成，提高整体效率。
用户可自定义线程数，适应不同硬件配置。

🧹 文本预处理功能

小写转换：统一格式，避免大小写干扰发音。
空白规范化：去除多余空格与换行。
点字母修正：如 J.R.R. → J R R，提升首字母缩写识别。
内联参考编号移除：自动清理如 .188 或 .”3 类似标记。
声音词过滤：可自定义需删除的语气词（如 um, ahh）或映射替换（如 zzz ⇒ sigh）。

🎧 音频后处理能力

🗂️ Auto-Editor 集成

自动生成后自动修剪静音、口吃、伪影。
参数可调（阈值、边距），支持保留原始未剪辑文件。

🔊 FFmpeg 规范化

支持 EBU R128 标准响度控制（目标响度、动态范围、真峰值）。
快速峰值规范化，防止削波失真。
所有参数均可由用户自由调整。

📥 导出与输出管理

导出格式：WAV（无损）、MP3（320kbps）、FLAC（无损压缩）。
文件命名规则：基础名称 + 时间戳 + 参数标识 + 种子，便于管理和追溯。
分离输出模式：每个文本文件单独生成音频，避免混淆。

🧪 生成质量控制机制

📈 候选生成与验证

每个段落可生成多个候选音频（“takes”）。
最大尝试次数可设，失败时进行重试。
使用 Whisper/faster-whisper 对音频进行验证，选择与原文最接近的候选。
可绕过验证以提高速度，但可能引入伪影。

🔄 回退策略

当所有候选失败时，自动选择最长转录或相似度最高者作为替代。

🧠 Whisper 同步与验证

模型选择：支持 OpenAI Whisper 和 SYSTRAN 的 faster-whisper，多种模型尺寸可选。
显存提示：界面上显示预期显存占用，便于资源管理。
每块验证：对每个音频片段进行语音识别比对。
可绕过设置：完全跳过 Whisper 以加快流程。

⚙️ 性能优化与并行处理

多线程支持：默认启用 4 个工作线程，用户可调整。
内存管理：Whisper 使用后自动释放 GPU 显存，防止泄漏。
低内存调试模式：设置线程数为 1，用于调试或低配设备运行。

💾 设置持久化与用户界面

JSON/CSS 设置保存：每个输出附带 .settings.json 和 .settings.csv，记录完整生成参数。
Gradio 全功能 UI：提供开关、滑块、下拉菜单、复选框等控件，交互友好。
音频预览与下载：直接在界面上试听或下载任意生成音频。
帮助面板：折叠式说明区，详细解释每一项功能用途。

🎙️ 语音转换（VC）选项卡

功能概述

语音转换（Voice Conversion）模块允许你：

上传一段“源语音”
上传或录制一段“目标语音”
点击“运行转换”，即可获得相同内容、但使用目标语音的新音频

技术亮点

自动分块处理：长音频被切分为重叠片段，通过交叉淡入淡出无缝拼接。
采样率匹配：输出音频与模型采样率一致，保证保真度。
去水印选项：可根据需求禁用水印。

🛠️ 使用技巧与常见问题

❗ 显存不足或运行缓慢？

减少并行线程数
使用更轻量级的 Whisper 模型
降低候选数量

🎵 生成音频有伪影？

增加候选数量或重试次数
调整 Auto-Editor 阈值和边距
优化声音词替换规则

🎧 音频不连贯？

增加 Auto-Editor 边距
适当降低阈值

🔁 如何确保结果可重现？

使用固定种子（seed）

工具 # Chatterbox-TTS-Extended # TTS

文章版权归作者所有，未经允许请勿转载。

lorakit：一款基于DreamBooth技术的SDXL微调工具包

工具 # lorakit # 微调工具包

2年前

05630

字节跳动发布面向专业开发者的AI编程工具Trae

工具 # AI编程 # Trae

1年前

04550

新LongCat-AudioDiT：美团开源的端到端语音合成模型，直接在波形潜空间生成高保真语音

语音模型 # LongCat-AudioDiT # TTS # 美团

12小时前

050

离线查看Stable Diffusion图片参数，这些开源软件让你一目了然！

工具 # AI绘画 # DiffusionToolkit # nomacs

2年前

01,2490

暂无评论

暂无评论...