Chatterbox-TTS-Extended :全能 TTS 工具链支持语音转换与高质量音频生成

工具6个月前发布 小马良
276 0

Chatterbox-TTS-Extended 是基于 Chatterbox-TTS 的增强型文本到语音(TTS)工具链,专为需要灵活控制和高质量输出的高级用户设计。它不仅支持单次和批量语音合成,还集成了音频后处理、语音转换(VC)、Whisper 验证等功能,适用于从语音生成到内容制作的完整工作流。

本文将详细介绍其主要功能、技术亮点、工作流程以及使用建议,帮助你全面了解这款强大工具的能力。

📌 主要功能一览

功能用户界面支持脚本支持
文本输入(文本框 + 多文件上传)
参考音频(条件输入)
分离/合并输出
情感、CFG、温度、种子调节
批量/智能追加/句子分割
声音词移除/替换
内联参考编号处理
点字母修正(如 J.R.R.)
小写与空白规范化
Auto-Editor 后处理
FFmpeg 规范化(EBU / 峰值)
WAV / MP3 / FLAC 导出
候选数量、重试、回退机制
并行处理(多线程)
Whisper / faster-whisper 验证
设置持久化(JSON / CSV)
设置导入 / 导出
音频预览与下载
帮助面板(折叠式)
语音转换(VC)选项卡

🔤 文本输入与文件处理

✍️ 文本输入

  • 支持手动输入或拖放多个 .txt 文件。
  • 可选择合并所有文本生成一个音频,或按文件分别生成独立输出。
  • 输出文件名包含时间戳、参数信息,便于追踪与复用。

🎙️ 参考音频输入

  • 支持上传或录制参考语音样本。
  • TTS 引擎将模仿该样本的语调、风格或情感。
  • 即使参考音频缺失或无效,也能优雅降级并继续生成。

🎛️ 语音控制参数

💬 情感控制

  • 提供滑块控制情感强度(0 = 中性,1 = 正常,2 = 夸张)

📏 CFG 权重 & 语速

  • 控制语音的严格程度和语速:
    • 高值:字面表达、单调
    • 低值:富有表现力、自然流畅

🌡️ 温度(Temperature)

  • 控制语音生成的随机性,影响多样性和自然度。

🔁 随机种子(Seed)

  • 0 表示每次生成不同结果;指定数字则实现可重复生成。

📦 批量处理与分块策略

🧩 自动分块

  • 默认每块最多 300 字符(可配置),避免长句导致发音问题。
  • 支持递归拆分长句,在标点处自动断开。

⚡ 智能短句合并

  • 若关闭批量处理,系统会自动合并过短句子,提升韵律连贯性。

🔄 并行处理

  • 支持多线程并发生成,提高整体效率。
  • 用户可自定义线程数,适应不同硬件配置。

🧹 文本预处理功能

  • 小写转换:统一格式,避免大小写干扰发音。
  • 空白规范化:去除多余空格与换行。
  • 点字母修正:如 J.R.R.  J R R,提升首字母缩写识别。
  • 内联参考编号移除:自动清理如 .188  .”3 类似标记。
  • 声音词过滤:可自定义需删除的语气词(如 um, ahh)或映射替换(如 zzz ⇒ sigh)。

🎧 音频后处理能力

🗂️ Auto-Editor 集成

  • 自动生成后自动修剪静音、口吃、伪影。
  • 参数可调(阈值、边距),支持保留原始未剪辑文件。

🔊 FFmpeg 规范化

  • 支持 EBU R128 标准响度控制(目标响度、动态范围、真峰值)。
  • 快速峰值规范化,防止削波失真。
  • 所有参数均可由用户自由调整。

📥 导出与输出管理

  • 导出格式:WAV(无损)、MP3(320kbps)、FLAC(无损压缩)。
  • 文件命名规则:基础名称 + 时间戳 + 参数标识 + 种子,便于管理和追溯。
  • 分离输出模式:每个文本文件单独生成音频,避免混淆。

🧪 生成质量控制机制

📈 候选生成与验证

  • 每个段落可生成多个候选音频(“takes”)。
  • 最大尝试次数可设,失败时进行重试。
  • 使用 Whisper/faster-whisper 对音频进行验证,选择与原文最接近的候选。
  • 可绕过验证以提高速度,但可能引入伪影。

🔄 回退策略

  • 当所有候选失败时,自动选择最长转录或相似度最高者作为替代。

🧠 Whisper 同步与验证

  • 模型选择:支持 OpenAI Whisper 和 SYSTRAN 的 faster-whisper,多种模型尺寸可选。
  • 显存提示:界面上显示预期显存占用,便于资源管理。
  • 每块验证:对每个音频片段进行语音识别比对。
  • 可绕过设置:完全跳过 Whisper 以加快流程。

⚙️ 性能优化与并行处理

  • 多线程支持:默认启用 4 个工作线程,用户可调整。
  • 内存管理:Whisper 使用后自动释放 GPU 显存,防止泄漏。
  • 低内存调试模式:设置线程数为 1,用于调试或低配设备运行。

💾 设置持久化与用户界面

  • JSON/CSS 设置保存:每个输出附带 .settings.json  .settings.csv,记录完整生成参数。
  • Gradio 全功能 UI:提供开关、滑块、下拉菜单、复选框等控件,交互友好。
  • 音频预览与下载:直接在界面上试听或下载任意生成音频。
  • 帮助面板:折叠式说明区,详细解释每一项功能用途。

🎙️ 语音转换(VC)选项卡

功能概述

语音转换(Voice Conversion)模块允许你:

  • 上传一段“源语音”
  • 上传或录制一段“目标语音”
  • 点击“运行转换”,即可获得相同内容、但使用目标语音的新音频

技术亮点

  • 自动分块处理:长音频被切分为重叠片段,通过交叉淡入淡出无缝拼接。
  • 采样率匹配:输出音频与模型采样率一致,保证保真度。
  • 去水印选项:可根据需求禁用水印。

🛠️ 使用技巧与常见问题

❗ 显存不足或运行缓慢?

  • 减少并行线程数
  • 使用更轻量级的 Whisper 模型
  • 降低候选数量

🎵 生成音频有伪影?

  • 增加候选数量或重试次数
  • 调整 Auto-Editor 阈值和边距
  • 优化声音词替换规则

🎧 音频不连贯?

  • 增加 Auto-Editor 边距
  • 适当降低阈值

🔁 如何确保结果可重现?

  • 使用固定种子(seed)
© 版权声明

相关文章

暂无评论

none
暂无评论...