Voice-Pro
Voice-Pro

Voice-Pro最新版

官方版无广告4

Voice-Pro是一款革新多媒体内容制作的先进网页应用。它将YouTube视频下载、音频分离、语音识别、翻译和文本转语音(TTS)集成到一个强大的工具中,为创作者、研究人员和多语言专家提供理想的解决方案。

更新日期:
2026年1月10日
语言:
中文
平台:

36.4MB0 人已下载 手机查看

Voice-Pro 是一个功能完整的开源网页应用,专为需要语音识别(ASR)、多语言翻译、文本转语音(TTS)和配音的用户设计。它将 YouTube 下载、音频分离、字幕生成、语音克隆等能力集成在一个界面中,无需依赖云端服务即可在本地运行。

Voice-Pro

无论是制作播客、翻译教学视频,还是为多语言内容生成配音,Voice-Pro 都提供了一套免费、可审计、可离线的解决方案。

核心能力一览

语音识别(ASR)

支持多种 Whisper 变体,满足不同精度与速度需求:

  • Whisper(原始版)
  • Faster-Whisper(CPU/GPU 加速)
  • Whisper-Timestamped(带时间戳)
  • WhisperX(支持说话人分割)

支持 100+ 语言的语音转文字,并可输出 SRT、ASS 等标准字幕格式。

零样本语音克隆

无需训练数据,直接用一段语音样本生成相似声音:

  • F5-TTS(支持中、英、日、法、西、俄等多语种微调模型)
  • E2-TTS
  • CosyVoice(支持情感与风格控制)
  • kokoro(HuggingFace TTS Arena 排名第 2)

内置多位中文名人声音样本(如迪丽热巴、蔡依林、赵丽颖等),可用于创意内容制作。

多语言翻译

  • 免费版:基于 Deep-Translator(集成 Google Translate 等开源接口)
  • 付费版:支持 Microsoft Azure Translator(更高准确率与专业术语支持)

可对字幕或转录文本进行实时翻译,支持 100+ 语言互译

音频处理全流程

  • YouTube 视频下载:通过 yt-dlp 提取音视频
  • 人声分离:使用 Facebook 的 Demucs 模型提取干净人声
  • 降噪选项:三级降噪(需注意显存占用)
  • 输出格式:WAV、FLAC、MP3,兼容所有主流编辑软件
Voice-Pro

网页界面功能分区

标签页功能
配音工作室从 YouTube 到最终配音的完整流水线
Whisper 字幕专注字幕生成,支持单词级高亮、时间轴编辑
翻译批量翻译字幕文件(SRT/ASS/SSA)或实时文本
语音生成选择 TTS 引擎、调节语速/音量/音调,试听并导出

所有操作均在浏览器中完成,后端服务运行于本地,数据不出设备

系统要求

  • 操作系统:Windows 10/11(64 位)

    ⚠️ 官方暂未支持 Linux/macOS(尽管部分用户社区已尝试移植)

  • GPU:NVIDIA 显卡 + CUDA 12.4(推荐)
  • 显存:≥4GB(8GB+ 更佳,尤其使用降噪级别 2 或 float 计算类型)
  • 内存:≥4GB
  • 存储:≥20GB(首次运行需下载 CozyVoice 等模型,约 9GB)
  • 网络:首次安装必需(用于下载依赖和模型)

安装与使用

快速开始

git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro

Windows 用户:

  1. 运行 configure.bat(安装 ffmpeg、CUDA 工具链等,耗时约 1 小时)
  2. 运行 start.bat(启动 WebUI,默认地址 http://127.0.0.1:7870

💡 若浏览器未自动打开,请手动访问命令行中显示的 URL。

常见问题解决:

  • CUDA 内存不足
    → 降噪级别设为 0 或 1;计算类型选 int8 而非 float16
  • 首次启动慢
    → 正常现象,需下载 Whisper、TTS 等模型
  • 出错无法启动
    → 删除 installer_files 文件夹,重新运行 configure.bat + start.bat

更新与卸载

  • 更新:运行 update.bat(仅刷新 Python 环境)
  • 卸载:删除整个文件夹(便携式设计,无注册表残留)

为什么选择 Voice-Pro?

  • 开源透明:代码公开,可自行审计,无隐藏数据收集;
  • 本地优先:所有处理在本地完成,保护语音隐私;
  • 功能集成:从视频下载到配音输出,无需切换多个工具;
  • 多语言友好:特别优化中文、日语、韩语等东亚语言支持;
  • 成本可控:免费版已满足大部分个人创作需求。

相关软件

WhisperJAV

WhisperJAV - 最新版

WhisperJAV是一款日本成人视频的字幕生成器,它在标准 Whisper 架构基础上,针对**低信噪比、非语言发声密集、长上下文漂移、方言表达**等挑战,提出了一套“外科手术式”的音频预处理与后处理流程。

暂无评论

none
暂无评论...