Voicebox是一款本地优先的专业语音克隆与合成工作室,具备数字音频工作站级别的编辑能力,专为高质量语音合成场景设计。它可以看作是ElevenLabs的本地、免费、开源替代方案——无需依赖云端服务,下载对应语音模型后,就能在个人电脑上完成声音克隆、语音生成、多轨音频编辑全流程操作,所有数据与模型均留存本地,兼顾隐私与灵活性。

与主流云端语音服务相比,Voicebox彻底打破订阅制与数据锁定的限制,核心优势集中在五大维度:
- 绝对隐私安全:所有语音模型、克隆样本、生成音频均存储在本地机器,无数据上传云端,杜绝隐私泄露风险
- 专业级编辑工具:内置多轨时间线编辑器、音频修剪、对话混音等功能,媲美专业音频工作站,满足复杂语音创作需求
- 模型高度灵活:当前核心由阿里Qwen3-TTS模型驱动,后续将陆续支持XTTS、Bark等主流开源语音模型,适配不同场景需求
- API优先设计:既提供可视化桌面应用,也支持通过REST API将语音合成能力集成到自有项目,兼顾普通用户与开发者
- 原生高性能:基于Tauri(Rust)构建,摒弃Electron,打包体积更小、内存占用更低;在Apple Silicon设备上,通过MLX后端+Metal加速,推理速度提升4-5倍,Mac端体验极致流畅
无需安装Python环境,无需依赖云端算力,没有生成次数与时长限制,下载即用——无论是个人内容创作,还是开发者构建语音驱动应用,Voicebox都能提供一站式本地语音解决方案。

核心功能:从克隆到编辑,全链路覆盖
1. 基于Qwen3-TTS的极速语音克隆
Voicebox依托阿里巴巴开源的Qwen3-TTS模型,实现行业领先的零样本语音克隆能力,仅需几秒音频样本,就能复刻出近乎完美的目标声音,核心特性:
- 秒级克隆:上传任意几秒清晰音频样本,即可快速生成专属语音配置文件,无需复杂训练
- 高保真还原:精准复刻目标声音的韵律、情感、节奏、尾音等细节,自然度接近真人,人耳难辨真假
- 多语言支持:完美支持英语、中文语音克隆与生成,后续将持续拓展更多语种
- Apple Silicon极致加速:MLX后端充分调用Apple Silicon神经网络引擎,生成速度远超传统PyTorch后端,效率拉满
2. 语音配置文件全生命周期管理
针对克隆后的声音,提供完善的配置文件管理能力,方便用户批量管理、复用与共享:
- 支持从本地音频文件导入创建语音配置,也可在应用内直接录制样本,无需额外工具
- 支持配置文件导入/导出,可自由共享给他人或本地备份,跨设备迁移无压力
- 多样本融合:上传多个不同场景的音频样本,组合生成更高质量、更稳定的克隆声音
- 精细化管理:支持为每个语音配置添加描述、语言标签,快速分类检索,避免混乱
3. 高效语音生成能力
基于克隆声音或内置音色,提供灵活的文本转语音功能,适配不同创作场景:
- 自由调用任意克隆语音,输入文本即可生成对应语音,支持长短文本一键转换
- 批量生成:针对长文、播客脚本、多角色对话等长格式内容,支持批量处理,无需逐段生成
- 智能缓存:缓存语音生成参数与提示词,一键重新生成,修改文本后快速迭代,提升创作效率
4. 故事编辑器:多轨语音创作工作台
内置专业级时间线故事编辑器,专为多语音叙述、播客、对话场景设计,是普通TTS工具不具备的核心能力:
- 多轨合成:在单个项目中创建多个语音轨道,自由排列不同角色、不同段落的音频,实现多角色对话编排
- 内联音频编辑:直接在时间线中对音频片段进行修剪、分割、拼接,无需切换第三方音频工具
- 同步预览:支持自动播放与同步播放头,边编辑边预览,实时调整音频节奏与衔接
- 对话混音:支持多位说话者语音混合编排,自动优化对话停顿与衔接,模拟真实对话场景
5. 录制与转录一体化
兼顾语音采集与文本转换需求,实现“录制-转录-编辑”闭环:
- 应用内直接录制语音,实时显示波形可视化,精准把控录制质量
- 支持系统音频捕获,在macOS与Windows系统上均可录制桌面音频,适配游戏语音、系统提示音等场景
- 基于Whisper模型实现自动转录,语音转文本准确率高,支持多语种识别
- 支持导出多种格式的录制音频,适配不同播放与编辑场景
6. 生成历史与回溯
所有生成操作均留痕,方便用户回溯、复用与修改:
- 完整记录所有生成音频的历史,包含文本内容、使用语音、生成时间等信息
- 支持按语音配置、生成文本、日期等维度搜索与筛选,快速定位历史内容
- 一键重新生成:针对任意历史生成结果,无需重复输入文本,直接调用参数重新生成,支持快速迭代优化
7. 灵活部署模式
适配不同算力与使用场景,提供三种部署方案:
- 本地模式:所有模型、数据、计算均在本地机器运行,无网络依赖,隐私优先
- 远程模式:可连接局域网内的GPU服务器,利用远程算力提升生成速度,适配高负载场景
- 一键服务器:将任意机器快速部署为Voicebox服务器,支持多设备调用,适合团队协作与项目集成

开放API:轻松集成语音能力
Voicebox提供完整的REST API,开发者可将语音合成、克隆、管理能力无缝集成到自有应用中,无需从零开发。以下为核心接口示例:
# 文本转语音生成
curl -X POST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d '{"text": "Hello world", "profile_id": "abc123", "language": "en"}'
# 列出所有语音配置文件
curl http://localhost:8000/profiles
# 创建新的语音配置文件
curl -X POST http://localhost:8000/profiles \
-H "Content-Type: application/json" \
-d '{"name": "My Voice", "language": "en"}'
应用启动后,完整的API文档可通过http://localhost:8000/docs访问,包含所有接口的参数说明、返回格式与调用示例,降低集成成本。
典型应用场景
- 游戏对话系统:为游戏NPC生成个性化语音,支持多角色切换
- 播客/视频制作流水线:批量生成旁白、角色配音,提升内容生产效率
- 辅助功能工具:为视障用户生成语音读物、语音提示
- 自定义语音助手:克隆个人声音,打造专属语音交互助手
- 内容创作自动化:集成到写作、脚本工具中,实现文本一键转语音
技术栈:高性能与可扩展性兼顾
Voicebox采用前后端分离架构,兼顾桌面应用的原生性能与Web端的灵活性,核心技术栈如下:
| 技术层级 | 核心技术 | 核心优势 |
|---|---|---|
| 桌面应用框架 | Tauri (Rust) | 打包体积小10倍,原生性能,低内存占用,跨平台兼容 |
| 前端界面 | React + TypeScript + Tailwind CSS | 类型安全,界面流畅,样式可定制化程度高 |
| 状态管理 | Zustand + React Query | 轻量高效,支持异步状态管理,优化数据请求与缓存 |
| 后端服务 | FastAPI (Python) | 异步高性能,自动生成OpenAPI文档,接口开发效率高 |
| 语音核心模型 | Qwen3-TTS (PyTorch/MLX) | 阿里开源,高保真克隆,多语言支持,推理速度快 |
| 语音转录 | Whisper (PyTorch/MLX) | 开源通用转录模型,多语种高准确率 |
| 推理引擎 | MLX (Apple Silicon) / PyTorch (全平台) | MLX适配Apple Silicon极致加速,PyTorch保障跨平台兼容 |
| 本地存储 | SQLite | 轻量嵌入式数据库,无需额外部署,数据本地留存 |
| 音频处理 | WaveSurfer.js + librosa | 前端波形可视化,后端专业音频处理,兼顾编辑与分析 |
技术选型核心逻辑
- 弃用Electron选择Tauri:解决传统桌面应用体积大、内存占用高、性能差的问题,提供原生级体验
- 采用FastAPI后端:异步处理高并发请求,自动生成OpenAPI规范,实现前后端类型安全对接
- 双推理引擎适配:MLX针对Apple Silicon优化,PyTorch覆盖Windows/Linux/Intel平台,全设备兼容
- 端到端类型安全:基于OpenAPI规范自动生成TypeScript客户端,避免前后端接口对接错误
路线图:从工具到一站式语音平台
Voicebox目前已实现核心语音克隆、合成与编辑能力,未来将持续迭代,目标打造覆盖全场景的一站式语音处理平台。
近期即将上线功能
| 功能 | 核心描述 |
|---|---|
| 实时流式合成 | 生成过程中逐词流式输出音频,无需等待完整生成,适配实时交互场景 |
| 多角色对话模式 | 支持多说话者自动轮换,一键生成自然对话音频,简化剧本配音 |
| 专业语音效果 | 新增音高变换、混响、变声等效果,支持M3GAN风格等创意音效处理 |
| 词级精度时间线 | 升级编辑器,支持词级音频分割与编辑,精准调整语音节奏与停顿 |
| 多模型兼容 | 陆续接入XTTS、Bark等主流开源语音模型,用户可按需切换 |
未来长期愿景
- 语音设计:无需音频样本,通过文本描述直接生成全新音色,实现“文字造声”
- 项目管理系统:支持保存、加载复杂多语音项目,支持版本管理与协作编辑
- 插件化架构:开放插件接口,支持用户自定义模型、效果、导出格式,扩展能力无上限
- 移动端伴侣:推出手机端控制应用,远程操控桌面端Voicebox,随时随地管理与生成语音















