Voice Clone Studio

2个月前发布 31 00

Voice Clone Studio是一个基于 Gradio 的语音克隆与语音设计 Web 界面，由 Qwen3-TTS 和 VibeVoice 驱动。支持使用 Whisper 或 VibeVoice-asr 进行自动转录。

所在地：

美国

收录时间：

2026-01-26

打开网站手机查看

AI语音 # Qwen3-TTS # VibeVoice # Voice Clone Studio

Voice Clone Studio

打开网站

Voice Clone Studio 是一个基于 Gradio 的开源 Web 应用，支持在本地设备上完成语音克隆、语音设计、多说话人对话生成与音频预处理。它由 Qwen3-TTS（阿里）和 VibeVoice（微软）两大语音引擎驱动，全程无需联网，数据不出设备，适合对隐私、可控性和生成质量有较高要求的创作者。

无论是制作播客、有声书，还是生成角色对话、AI 旁白，Voice Clone Studio 都提供了一套完整、灵活且可离线运行的工作流。

核心功能

🎙️ 语音克隆（Voice Cloning）

上传 3–10 秒清晰语音样本 + 对应文本，即可克隆该声音
支持两种引擎：
- Qwen 小型/大型模型：速度快，适合短文本
- VibeVoice 小型/大型模型：音质更自然，支持长语音
语音提示缓存：首次生成较慢，后续相同样本即时输出
种子控制：固定种子可复现完全一致的语音结果
元数据自动保存：每段输出记录样本、种子、文本等信息，便于追溯

💬 多说话人对话生成

使用统一脚本格式 [N]: 编写对话，系统自动分配说话人：

[1]: Hey, how's it going?
[2]: I'm doing great, thanks for asking!

Qwen 模式（9 种预设声音）

编号	说话人	语言	特点
[1]	Vivian	中文	明亮，略带锋芒
[2]	Serena	中文	温暖温柔
[3]	Uncle_Fu	中文	醇厚低沉
[4]	Dylan	中文（北京）	清晰自然
[5]	Eric	中文（四川）	活泼沙哑
[6]	Ryan	英语	节奏感强
[7]	Aiden	英语	阳光清晰
[8]	Ono_Anna	日语	活泼灵动
[9]	Sohee	韩语	情感丰富

支持风格指令（如“兴奋”“低语”“加快语速”）
可调节行间停顿时长
每位说话人在母语中表现最佳，但支持跨语言生成

VibeVoice 模式（自定义声音）

支持最多 4 个自定义声音参与同一对话
数字超过 4 时自动循环（5→1, 6→2…）
支持长达 90 分钟的连续语音生成，适合有声书、播客
可能自动添加背景音效以增强真实感
支持跨语言混合对话

🎨 语音设计（Voice Design）

无需录音，仅通过自然语言描述即可生成新声音：

“年轻女性，温暖友好，略带英国口音，语速适中”

系统将基于描述生成匹配的语音模型，适用于角色创作或实验性项目。

✂️ 音频预处理工作台

内置完整音频处理工具链：

裁剪：通过波形可视化精准截取片段
标准化：自动平衡音量电平
转单声道：确保兼容性
自动转录：基于 Whisper 或 VibeVoice-ASR 生成文本
一键保存为样本：生成 .wav + .txt 配对文件

📁 输出管理

所有生成的音频自动保存至 output/ 目录，支持在 UI 中直接播放、下载或删除。

技术细节与模型选择

功能	模型选项	推荐场景	显存需求（估算）
语音克隆	Base (Small/Large)	从样本克隆声音	Small: ~4GB / Large: ~8GB
预设声音对话	CustomVoice	使用 Qwen 9 种预设说话人	同上
语音设计	VoiceDesign (1.7B only)	从文本描述生成新声音	~8GB
长篇多说话人	VibeVoice	播客、有声书、90 分钟连续输出	Small: ~6GB / Large: ~10GB+
转录	Whisper (Medium)	音频/视频自动转文字	~2GB

所有模型首次使用时自动从 Hugging Face 下载，无需手动配置。

安装与运行

系统要求

Python 3.12+
NVIDIA GPU（推荐 8GB+ 显存）
SOX（音频处理）
FFmpeg（格式转换、视频提取）
Flash Attention 2（可选，提升推理速度）

快速启动（Windows）

git clone https://github.com/FranckyB/Voice-Clone-Studio.git
cd Voice-Clone-Studio
setup.bat  # 自动安装依赖、PyTorch、SOX、FFmpeg
launch.bat # 启动 Web UI

手动安装（Linux/macOS/Windows）

# 创建虚拟环境
python -m venv venv && source venv/bin/activate  # Windows: venv\Scripts\activate

# 安装 PyTorch（CUDA 13.0）
pip install torch==2.9.1 torchaudio --index-url https://download.pytorch.org/whl/cu130

# 安装依赖
pip install -r requirements.txt

# 安装 SOX 和 FFmpeg（按平台选择命令，详见原文）

# 启动
python voice_clone_studio.py

访问 http://127.0.0.1:7860 即可使用。

使用建议

参考音频：尽量使用无背景噪音、发音清晰的 3–10 秒录音
转录文本：必须与音频内容完全一致，否则影响克隆质量
首次生成较慢：因需加载模型和处理样本，后续调用极快（得益于缓存）
视频支持：v0.30 起支持上传 .mp4、.mov 等视频，自动提取音频用于克隆

数据统计

暂无评论

暂无评论...

Voice Clone Studio

核心功能

🎙️ 语音克隆（Voice Cloning）

💬 多说话人对话生成

Qwen 模式（9 种预设声音）

VibeVoice 模式（自定义声音）

🎨 语音设计（Voice Design）

✂️ 音频预处理工作台

📁 输出管理

技术细节与模型选择

安装与运行

系统要求

快速启动（Windows）

手动安装（Linux/macOS/Windows）

使用建议

数据统计

相关导航

NotebookLlaMa

WhisperLiveKit

Subtle Computing

NaturalReader

ListenHub

Huxe

FlowSpeech

Krisp

暂无评论

网址

ITELLOU

OpenMAIC

S.H.I.T

Alaya Code

Jellyfish AI短剧工厂

抓虾吧

ITELLOU

OpenMAIC

S.H.I.T

Alaya Code

Jellyfish AI短剧工厂

抓虾吧

Voice Clone Studio

核心功能

🎙️ 语音克隆（Voice Cloning）

💬 多说话人对话生成

Qwen 模式（9 种预设声音）

VibeVoice 模式（自定义声音）

🎨 语音设计（Voice Design）

✂️ 音频预处理工作台

📁 输出管理

技术细节与模型选择

安装与运行

系统要求

快速启动（Windows）

手动安装（Linux/macOS/Windows）

使用建议

数据统计

相关导航

NotebookLlaMa

WhisperLiveKit

Subtle Computing

NaturalReader

ListenHub

Huxe

FlowSpeech

Krisp

暂无评论

网址

ITELLOU

OpenMAIC

S.H.I.T

Alaya Code

Jellyfish AI短剧工厂

抓虾吧

标签云

网址

ITELLOU

OpenMAIC

S.H.I.T

Alaya Code

Jellyfish AI短剧工厂

抓虾吧