Video-Subtitle-Master - 最新版
video-subtitle-master是一个批量为视频或者音频生成字幕,并可批量将字幕翻译成其它语言的跨平台字幕翻译软件, 支持百度、火山、deeplx、openai、deepseek、ollama 等多个翻译服务。


WhisperJAV是一款日本成人视频的字幕生成器,它在标准 Whisper 架构基础上,针对**低信噪比、非语言发声密集、长上下文漂移、方言表达**等挑战,提出了一套“外科手术式”的音频预处理与后处理流程。
230MB0 人已下载 手机查看
WhisperJAV 是一款专为处理极端声学环境(如日本成人影视、ASMR、长对白场景)设计的字幕生成工具。它在标准 Whisper 架构基础上,针对低信噪比、非语言发声密集、长上下文漂移、方言表达等挑战,提出了一套“外科手术式”的音频预处理与后处理流程。

⚠️ 本工具定位为通用高噪声口语内容处理框架,适用于戏剧、ASMR、采访、自制视频等复杂音频场景。用户需自行确保所处理内容符合当地法律法规。
Whisper 等主流 ASR 模型在干净、短片段、结构化语音上表现优异,但在以下场景中性能显著下降:
no_speech_threshold 与 log-prob 阈值,丢弃低置信输出(moans))| 模式 | 后端 | 场景检测 | VAD | 适用场景 |
|---|---|---|---|---|
faster | stable-ts (turbo) | ❌ | ❌ | 速度优先,音频干净 |
fast | stable-ts | ✅ | ❌ | 通用混合质量 |
balanced | faster-whisper | ✅ | ✅ | 默认,噪声大、对白多 |
fidelity | OpenAI Whisper | ✅ | ✅ (Silero) | 最高精度,速度慢 |
transformers | HuggingFace | 可选 | 内置 | 日语优化模型(kotoba-whisper-v2.2) |
whisperjav video.mp4 --mode balanced --scene-detection-method semantic
smart_merge(默认)、pass1_primary、full_merge# 生成并翻译字幕
whisperjav video.mp4 --translate --translate-provider deepseek
# 翻译已有 SRT
whisperjav-translate -i subtitles.srt --provider gemini
支持:DeepSeek(低成本)、Gemini(免费额度)、Claude、GPT-4、OpenRouter
# 进入安装目录(如 %LOCALAPPDATA%\WhisperJAV)
Scripts\pip.exe install -U --no-deps git+https://github.com/meizhong986/whisperjav.git
Scripts\pip.exe install scikit-learn>=1.3.0
git clone https://github.com/meizhong986/whisperjav.git
cd whisperjav
python install.py # 自动配置 CUDA
python install.py --cpu-only # 仅 CPU
依赖:Python 3.9–3.12、FFmpeg、NVIDIA CUDA / Apple MPS / AMD ROCm
whisperjav-gui
# 基础用法
whisperjav video.mp4
# 指定模式(balanced 为默认)
whisperjav video.mp4 --mode balanced --sensitivity aggressive
# 双通行集成(v1.7+)
whisperjav video.mp4 --ensemble \
--pass1-pipeline transformers \
--pass2-pipeline fidelity
| 平台 | 时间 |
|---|---|
| NVIDIA GPU (CUDA) | 5–10 分钟 |
| Apple Silicon (MPS) | 8–15 分钟 |
| AMD GPU (ROCm) | 10–20 分钟 |
| CPU only | 30–60 分钟 |
| 内容类型 | 推荐模式 | 敏感度 | 说明 |
|---|---|---|---|
| 剧情/对白密集 | balanced 或 transformers | aggressive | 保留细节 |
| 群戏/多说话人 | faster | conservative | 速度优先 |
| 自制/素人视频 | fast | conservative | 容忍音质波动 |
| ASMR / 耳语 | fidelity | aggressive | 捕捉微弱语音 |
| 背景音乐强 | balanced | conservative | VAD 过滤音乐 |
| 极致精度需求 | ensemble | 按需组合 | 双模型互补 |