Voicebox
Voicebox

Voicebox最新版

官方版无广告9

Voicebox 是一个本地优先的语音克隆工作室,具备类似数字音频工作站的功能,专为专业语音合成设计。您可以将其视为 ElevenLabs 的本地、免费且开源的替代方案 —— 下载模型、克隆声音,并在您的机器上完全本地生成语音。

更新日期:
2026年2月7日
语言:
中文
平台:

299MB0 人已下载 手机查看

Voicebox是一款本地优先的专业语音克隆与合成工作室,具备数字音频工作站级别的编辑能力,专为高质量语音合成场景设计。它可以看作是ElevenLabs的本地、免费、开源替代方案——无需依赖云端服务,下载对应语音模型后,就能在个人电脑上完成声音克隆、语音生成、多轨音频编辑全流程操作,所有数据与模型均留存本地,兼顾隐私与灵活性。

Voicebox

与主流云端语音服务相比,Voicebox彻底打破订阅制与数据锁定的限制,核心优势集中在五大维度:

  • 绝对隐私安全:所有语音模型、克隆样本、生成音频均存储在本地机器,无数据上传云端,杜绝隐私泄露风险
  • 专业级编辑工具:内置多轨时间线编辑器、音频修剪、对话混音等功能,媲美专业音频工作站,满足复杂语音创作需求
  • 模型高度灵活:当前核心由阿里Qwen3-TTS模型驱动,后续将陆续支持XTTS、Bark等主流开源语音模型,适配不同场景需求
  • API优先设计:既提供可视化桌面应用,也支持通过REST API将语音合成能力集成到自有项目,兼顾普通用户与开发者
  • 原生高性能:基于Tauri(Rust)构建,摒弃Electron,打包体积更小、内存占用更低;在Apple Silicon设备上,通过MLX后端+Metal加速,推理速度提升4-5倍,Mac端体验极致流畅

无需安装Python环境,无需依赖云端算力,没有生成次数与时长限制,下载即用——无论是个人内容创作,还是开发者构建语音驱动应用,Voicebox都能提供一站式本地语音解决方案。

Voicebox

核心功能:从克隆到编辑,全链路覆盖

1. 基于Qwen3-TTS的极速语音克隆

Voicebox依托阿里巴巴开源的Qwen3-TTS模型,实现行业领先的零样本语音克隆能力,仅需几秒音频样本,就能复刻出近乎完美的目标声音,核心特性:

  • 秒级克隆:上传任意几秒清晰音频样本,即可快速生成专属语音配置文件,无需复杂训练
  • 高保真还原:精准复刻目标声音的韵律、情感、节奏、尾音等细节,自然度接近真人,人耳难辨真假
  • 多语言支持:完美支持英语、中文语音克隆与生成,后续将持续拓展更多语种
  • Apple Silicon极致加速:MLX后端充分调用Apple Silicon神经网络引擎,生成速度远超传统PyTorch后端,效率拉满

2. 语音配置文件全生命周期管理

针对克隆后的声音,提供完善的配置文件管理能力,方便用户批量管理、复用与共享:

  • 支持从本地音频文件导入创建语音配置,也可在应用内直接录制样本,无需额外工具
  • 支持配置文件导入/导出,可自由共享给他人或本地备份,跨设备迁移无压力
  • 多样本融合:上传多个不同场景的音频样本,组合生成更高质量、更稳定的克隆声音
  • 精细化管理:支持为每个语音配置添加描述、语言标签,快速分类检索,避免混乱

3. 高效语音生成能力

基于克隆声音或内置音色,提供灵活的文本转语音功能,适配不同创作场景:

  • 自由调用任意克隆语音,输入文本即可生成对应语音,支持长短文本一键转换
  • 批量生成:针对长文、播客脚本、多角色对话等长格式内容,支持批量处理,无需逐段生成
  • 智能缓存:缓存语音生成参数与提示词,一键重新生成,修改文本后快速迭代,提升创作效率

4. 故事编辑器:多轨语音创作工作台

内置专业级时间线故事编辑器,专为多语音叙述、播客、对话场景设计,是普通TTS工具不具备的核心能力:

  • 多轨合成:在单个项目中创建多个语音轨道,自由排列不同角色、不同段落的音频,实现多角色对话编排
  • 内联音频编辑:直接在时间线中对音频片段进行修剪、分割、拼接,无需切换第三方音频工具
  • 同步预览:支持自动播放与同步播放头,边编辑边预览,实时调整音频节奏与衔接
  • 对话混音:支持多位说话者语音混合编排,自动优化对话停顿与衔接,模拟真实对话场景

5. 录制与转录一体化

兼顾语音采集与文本转换需求,实现“录制-转录-编辑”闭环:

  • 应用内直接录制语音,实时显示波形可视化,精准把控录制质量
  • 支持系统音频捕获,在macOS与Windows系统上均可录制桌面音频,适配游戏语音、系统提示音等场景
  • 基于Whisper模型实现自动转录,语音转文本准确率高,支持多语种识别
  • 支持导出多种格式的录制音频,适配不同播放与编辑场景

6. 生成历史与回溯

所有生成操作均留痕,方便用户回溯、复用与修改:

  • 完整记录所有生成音频的历史,包含文本内容、使用语音、生成时间等信息
  • 支持按语音配置、生成文本、日期等维度搜索与筛选,快速定位历史内容
  • 一键重新生成:针对任意历史生成结果,无需重复输入文本,直接调用参数重新生成,支持快速迭代优化

7. 灵活部署模式

适配不同算力与使用场景,提供三种部署方案:

  • 本地模式:所有模型、数据、计算均在本地机器运行,无网络依赖,隐私优先
  • 远程模式:可连接局域网内的GPU服务器,利用远程算力提升生成速度,适配高负载场景
  • 一键服务器:将任意机器快速部署为Voicebox服务器,支持多设备调用,适合团队协作与项目集成
Voicebox

开放API:轻松集成语音能力

Voicebox提供完整的REST API,开发者可将语音合成、克隆、管理能力无缝集成到自有应用中,无需从零开发。以下为核心接口示例:

# 文本转语音生成
curl -X POST http://localhost:8000/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "Hello world", "profile_id": "abc123", "language": "en"}'

# 列出所有语音配置文件
curl http://localhost:8000/profiles

# 创建新的语音配置文件
curl -X POST http://localhost:8000/profiles \
  -H "Content-Type: application/json" \
  -d '{"name": "My Voice", "language": "en"}'

应用启动后,完整的API文档可通过http://localhost:8000/docs访问,包含所有接口的参数说明、返回格式与调用示例,降低集成成本。

典型应用场景

  • 游戏对话系统:为游戏NPC生成个性化语音,支持多角色切换
  • 播客/视频制作流水线:批量生成旁白、角色配音,提升内容生产效率
  • 辅助功能工具:为视障用户生成语音读物、语音提示
  • 自定义语音助手:克隆个人声音,打造专属语音交互助手
  • 内容创作自动化:集成到写作、脚本工具中,实现文本一键转语音

技术栈:高性能与可扩展性兼顾

Voicebox采用前后端分离架构,兼顾桌面应用的原生性能与Web端的灵活性,核心技术栈如下:

技术层级核心技术核心优势
桌面应用框架Tauri (Rust)打包体积小10倍,原生性能,低内存占用,跨平台兼容
前端界面React + TypeScript + Tailwind CSS类型安全,界面流畅,样式可定制化程度高
状态管理Zustand + React Query轻量高效,支持异步状态管理,优化数据请求与缓存
后端服务FastAPI (Python)异步高性能,自动生成OpenAPI文档,接口开发效率高
语音核心模型Qwen3-TTS (PyTorch/MLX)阿里开源,高保真克隆,多语言支持,推理速度快
语音转录Whisper (PyTorch/MLX)开源通用转录模型,多语种高准确率
推理引擎MLX (Apple Silicon) / PyTorch (全平台)MLX适配Apple Silicon极致加速,PyTorch保障跨平台兼容
本地存储SQLite轻量嵌入式数据库,无需额外部署,数据本地留存
音频处理WaveSurfer.js + librosa前端波形可视化,后端专业音频处理,兼顾编辑与分析

技术选型核心逻辑

  • 弃用Electron选择Tauri:解决传统桌面应用体积大、内存占用高、性能差的问题,提供原生级体验
  • 采用FastAPI后端:异步处理高并发请求,自动生成OpenAPI规范,实现前后端类型安全对接
  • 双推理引擎适配:MLX针对Apple Silicon优化,PyTorch覆盖Windows/Linux/Intel平台,全设备兼容
  • 端到端类型安全:基于OpenAPI规范自动生成TypeScript客户端,避免前后端接口对接错误

路线图:从工具到一站式语音平台

Voicebox目前已实现核心语音克隆、合成与编辑能力,未来将持续迭代,目标打造覆盖全场景的一站式语音处理平台。

近期即将上线功能

功能核心描述
实时流式合成生成过程中逐词流式输出音频,无需等待完整生成,适配实时交互场景
多角色对话模式支持多说话者自动轮换,一键生成自然对话音频,简化剧本配音
专业语音效果新增音高变换、混响、变声等效果,支持M3GAN风格等创意音效处理
词级精度时间线升级编辑器,支持词级音频分割与编辑,精准调整语音节奏与停顿
多模型兼容陆续接入XTTS、Bark等主流开源语音模型,用户可按需切换

未来长期愿景

  • 语音设计:无需音频样本,通过文本描述直接生成全新音色,实现“文字造声”
  • 项目管理系统:支持保存、加载复杂多语音项目,支持版本管理与协作编辑
  • 插件化架构:开放插件接口,支持用户自定义模型、效果、导出格式,扩展能力无上限
  • 移动端伴侣:推出手机端控制应用,远程操控桌面端Voicebox,随时随地管理与生成语音

相关软件

Handy

Handy - 最新版

Handy 是一款基于 Tauri(Rust + React/TypeScript)构建的跨平台桌面应用,提供简单、注重隐私的语音转录功能。按下快捷键,说话,你的文字就会出现在任何文本框中——全程无需将语音数据发送到云端。

暂无评论

none
暂无评论...