WhisperJAV
WhisperJAV

WhisperJAV最新版

官方版无广告14

WhisperJAV是一款日本成人视频的字幕生成器,它在标准 Whisper 架构基础上,针对**低信噪比、非语言发声密集、长上下文漂移、方言表达**等挑战,提出了一套“外科手术式”的音频预处理与后处理流程。

更新日期:
2025年12月30日
语言:
中文
平台:

230MB0 人已下载 手机查看

WhisperJAV 是一款专为处理极端声学环境(如日本成人影视、ASMR、长对白场景)设计的字幕生成工具。它在标准 Whisper 架构基础上,针对低信噪比、非语言发声密集、长上下文漂移、方言表达等挑战,提出了一套“外科手术式”的音频预处理与后处理流程。

WhisperJAV

⚠️ 本工具定位为通用高噪声口语内容处理框架,适用于戏剧、ASMR、采访、自制视频等复杂音频场景。用户需自行确保所处理内容符合当地法律法规。

为什么标准 ASR 在这类音频上失效?

Whisper 等主流 ASR 模型在干净、短片段、结构化语音上表现优异,但在以下场景中性能显著下降:

1. “声学地狱”特征

  • 非语言发声(NVVs)密集:呼吸、喘息、叹气等缺乏谐波结构的声音占比高
  • 频谱模仿干扰:生理声音的频谱形似日语辅音(如 “fu”),触发模型误识别
  • 极端动态范围:从耳语(≈20 dB)到尖叫(≈90 dB)的瞬时切换,干扰注意力机制
  • 语言风格特殊:大量拟声词(onomatopoeia)、角色语(Yakuwarigo)、方言(如关西腔)

2. 长时序上下文漂移

  • JAV 等内容常超 120 分钟,远超 Whisper 训练片段(通常 <30s)
  • 长时间“模糊音频”(节奏性呼吸、静音)导致注意力机制崩溃,触发幻觉循环(重复生成无关文本)

3. 预处理与微调的局限性

  • 通用降噪会破坏高频瞬态特征,造成域偏移
  • 高质量领域数据稀缺,微调易过拟合,输出“时好时坏”

WhisperJAV 的核心方案

1. 声学过滤:场景感知分段 + VAD 裁剪

  • 场景检测:将视频按声学一致性切分为同质片段(避免混合噪声)
    • Auditok(默认):基于能量,快速稳定
    • Silero:神经 VAD,抗噪更强
    • Semantic(v1.7+):基于 MFCC 特征的凝聚聚类,将声学相似段归组
  • VAD 裁剪:仅保留语音活跃区,跳过纯呼吸/音乐段,减少幻觉输入

2. 语言适配:领域术语 + 方言修复

  • 保留拟声词与句末助词(ね、よ、わ)
  • 修复关西方言等导致的 BPE 分词错误
  • 识别角色语风格(女性语、男性语、年长者语)

3. 防御性解码:置信度过滤 + 幻觉清除

  • 动态调整 no_speech_threshold 与 log-prob 阈值,丢弃低置信输出
  • 正则过滤非词汇标记(如 (moans)
  • 检测并移除重复生成的幻觉文本

处理模式对比

模式后端场景检测VAD适用场景
fasterstable-ts (turbo)速度优先,音频干净
faststable-ts通用混合质量
balancedfaster-whisper默认,噪声大、对白多
fidelityOpenAI Whisper✅ (Silero)最高精度,速度慢
transformersHuggingFace可选内置日语优化模型(kotoba-whisper-v2.2

敏感度选项

  • Conservative:高阈值,少幻觉 → 适合背景音乐/群戏
  • Balanced:默认 → 通用
  • Aggressive:低阈值,多捕捉 → 适合 ASMR/耳语

新增功能(v1.7.4)

🔹 语义场景检测(Semantic Scene Detection)

  • 使用 MFCC 特征 + 凝聚聚类,将声学纹理相似的片段归为一类
  • 特别适合长静音 + 突发语音结构(如 JAV、采访)
  • CLI 示例:
    whisperjav video.mp4 --mode balanced --scene-detection-method semantic
    

🔹 双通行集成增强

  • 支持为每个通行独立配置场景检测器、敏感度、模型参数
  • 合并策略:smart_merge(默认)、pass1_primaryfull_merge

🔹 AI 翻译支持

# 生成并翻译字幕
whisperjav video.mp4 --translate --translate-provider deepseek

# 翻译已有 SRT
whisperjav-translate -i subtitles.srt --provider gemini

支持:DeepSeek(低成本)、Gemini(免费额度)、Claude、GPT-4、OpenRouter

💻 安装指南

Windows(最简)

升级(v1.7.3 → v1.7.4)

# 进入安装目录(如 %LOCALAPPDATA%\WhisperJAV)
Scripts\pip.exe install -U --no-deps git+https://github.com/meizhong986/whisperjav.git
Scripts\pip.exe install scikit-learn>=1.3.0

Linux / macOS(源码)

git clone https://github.com/meizhong986/whisperjav.git
cd whisperjav
python install.py              # 自动配置 CUDA
python install.py --cpu-only   # 仅 CPU

依赖:Python 3.9–3.12、FFmpeg、NVIDIA CUDA / Apple MPS / AMD ROCm

使用方式

✅ 推荐:GUI 模式(适合大多数用户)

whisperjav-gui
  • 添加视频/音频文件
  • 选择处理模式与敏感度
  • 一键生成 SRT 字幕

⚙️ 高级:命令行

# 基础用法
whisperjav video.mp4

# 指定模式(balanced 为默认)
whisperjav video.mp4 --mode balanced --sensitivity aggressive

# 双通行集成(v1.7+)
whisperjav video.mp4 --ensemble \
  --pass1-pipeline transformers \
  --pass2-pipeline fidelity

性能参考(每小时视频处理时间)

平台时间
NVIDIA GPU (CUDA)5–10 分钟
Apple Silicon (MPS)8–15 分钟
AMD GPU (ROCm)10–20 分钟
CPU only30–60 分钟

使用建议

内容类型推荐模式敏感度说明
剧情/对白密集balanced 或 transformersaggressive保留细节
群戏/多说话人fasterconservative速度优先
自制/素人视频fastconservative容忍音质波动
ASMR / 耳语fidelityaggressive捕捉微弱语音
背景音乐强balancedconservativeVAD 过滤音乐
极致精度需求ensemble按需组合双模型互补

技术基础

  • ASR 引擎:Whisper / faster-whisper / stable-ts / Kotoba-Whisper
  • VAD:Silero / Auditok / Semantic Clustering
  • 后处理:正则清洗、幻觉检测、方言适配
  • 翻译:集成主流 LLM API,支持批量翻译

相关软件

暂无评论

none
暂无评论...