Voice Clone Studio

4天前发布 2 00

Voice Clone Studio是一个基于 Gradio 的语音克隆与语音设计 Web 界面,由 Qwen3-TTS 和 VibeVoice 驱动。支持使用 Whisper 或 VibeVoice-asr 进行自动转录。

所在地:
美国
收录时间:
2026-01-26
Voice Clone StudioVoice Clone Studio

Voice Clone Studio 是一个基于 Gradio 的开源 Web 应用,支持在本地设备上完成语音克隆、语音设计、多说话人对话生成与音频预处理。它由 Qwen3-TTS(阿里)和 VibeVoice(微软)两大语音引擎驱动,全程无需联网,数据不出设备,适合对隐私、可控性和生成质量有较高要求的创作者。

无论是制作播客、有声书,还是生成角色对话、AI 旁白,Voice Clone Studio 都提供了一套完整、灵活且可离线运行的工作流。

核心功能

🎙️ 语音克隆(Voice Cloning)

  • 上传 3–10 秒清晰语音样本 + 对应文本,即可克隆该声音
  • 支持两种引擎:
    • Qwen 小型/大型模型:速度快,适合短文本
    • VibeVoice 小型/大型模型:音质更自然,支持长语音
  • 语音提示缓存:首次生成较慢,后续相同样本即时输出
  • 种子控制:固定种子可复现完全一致的语音结果
  • 元数据自动保存:每段输出记录样本、种子、文本等信息,便于追溯

💬 多说话人对话生成

使用统一脚本格式 [N]: 编写对话,系统自动分配说话人:

[1]: Hey, how's it going?
[2]: I'm doing great, thanks for asking!

Qwen 模式(9 种预设声音)

编号说话人语言特点
[1]Vivian中文明亮,略带锋芒
[2]Serena中文温暖温柔
[3]Uncle_Fu中文醇厚低沉
[4]Dylan中文(北京)清晰自然
[5]Eric中文(四川)活泼沙哑
[6]Ryan英语节奏感强
[7]Aiden英语阳光清晰
[8]Ono_Anna日语活泼灵动
[9]Sohee韩语情感丰富
  • 支持风格指令(如“兴奋”“低语”“加快语速”)
  • 可调节行间停顿时长
  • 每位说话人在母语中表现最佳,但支持跨语言生成

VibeVoice 模式(自定义声音)

  • 支持最多 4 个自定义声音参与同一对话
  • 数字超过 4 时自动循环(5→1, 6→2…)
  • 支持长达 90 分钟的连续语音生成,适合有声书、播客
  • 可能自动添加背景音效以增强真实感
  • 支持跨语言混合对话

🎨 语音设计(Voice Design)

无需录音,仅通过自然语言描述即可生成新声音:

“年轻女性,温暖友好,略带英国口音,语速适中”

系统将基于描述生成匹配的语音模型,适用于角色创作或实验性项目。

✂️ 音频预处理工作台

内置完整音频处理工具链:

  • 裁剪:通过波形可视化精准截取片段
  • 标准化:自动平衡音量电平
  • 转单声道:确保兼容性
  • 自动转录:基于 Whisper 或 VibeVoice-ASR 生成文本
  • 一键保存为样本:生成 .wav + .txt 配对文件

📁 输出管理

所有生成的音频自动保存至 output/ 目录,支持在 UI 中直接播放、下载或删除。

技术细节与模型选择

功能模型选项推荐场景显存需求(估算)
语音克隆Base (Small/Large)从样本克隆声音Small: ~4GB / Large: ~8GB
预设声音对话CustomVoice使用 Qwen 9 种预设说话人同上
语音设计VoiceDesign (1.7B only)从文本描述生成新声音~8GB
长篇多说话人VibeVoice播客、有声书、90 分钟连续输出Small: ~6GB / Large: ~10GB+
转录Whisper (Medium)音频/视频自动转文字~2GB

所有模型首次使用时自动从 Hugging Face 下载,无需手动配置。

安装与运行

系统要求

  • Python 3.12+
  • NVIDIA GPU(推荐 8GB+ 显存)
  • SOX(音频处理)
  • FFmpeg(格式转换、视频提取)
  • Flash Attention 2(可选,提升推理速度)

快速启动(Windows)

git clone https://github.com/FranckyB/Voice-Clone-Studio.git
cd Voice-Clone-Studio
setup.bat  # 自动安装依赖、PyTorch、SOX、FFmpeg
launch.bat # 启动 Web UI

手动安装(Linux/macOS/Windows)

# 创建虚拟环境
python -m venv venv && source venv/bin/activate  # Windows: venv\Scripts\activate

# 安装 PyTorch(CUDA 13.0)
pip install torch==2.9.1 torchaudio --index-url https://download.pytorch.org/whl/cu130

# 安装依赖
pip install -r requirements.txt

# 安装 SOX 和 FFmpeg(按平台选择命令,详见原文)

# 启动
python voice_clone_studio.py

访问 http://127.0.0.1:7860 即可使用。

使用建议

  • 参考音频:尽量使用无背景噪音、发音清晰的 3–10 秒录音
  • 转录文本:必须与音频内容完全一致,否则影响克隆质量
  • 首次生成较慢:因需加载模型和处理样本,后续调用极快(得益于缓存)
  • 视频支持:v0.30 起支持上传 .mp4.mov 等视频,自动提取音频用于克隆

数据统计

相关导航

暂无评论

none
暂无评论...