Gemini Subtitle Pro 是一款面向视频创作者与翻译工作者的端到端字幕处理工具。它将传统耗时数小时的字幕工作流——包括视频下载、语音转写、断句润色、术语统一、多语翻译、时间轴对齐和视频压制——压缩至 8–10 分钟内自动完成,全程无需人工干预。

核心理念是:用 AI 替代重复劳动,让人专注创意与校对。
为什么需要它?
手动制作高质量字幕通常涉及多个工具切换:先用 yt-dlp 下载视频,再用 Whisper 转录,接着用文本编辑器断句,然后借助翻译 API 处理多语内容,最后用 Aegisub 调时间轴、FFmpeg 压制视频。整个过程繁琐且易出错。
Gemini Subtitle Pro 将上述所有步骤集成在一个界面中,只需粘贴一个 YouTube 或 Bilibili 链接,即可输出带硬字幕的成品 MP4 文件。
核心能力
1. 高效自动化
- 支持 YouTube / Bilibili 视频自动下载(通过内置 yt-dlp)
- 智能并发控制:根据所用模型(Gemini Flash / Pro)动态调整请求频率,避免限流
- 30 分钟视频平均处理时间约 8 分钟[[1]]
2. 精准字幕生成
- 术语自动提取:从音频中识别专有名词(如人名、作品名),并调用 Google Search 验证标准译法,生成术语表确保全文一致性
- 毫秒级时间轴对齐:基于 CTC 技术的强制对齐模块(需额外配置 aligner 模型),支持字符级精度
- 说话人识别:自动区分多说话人,支持自定义名称与颜色,并合并相邻同身份片段
3. 上下文感知翻译
- 按语义切分 5–10 分钟片段,保留完整上下文进行翻译,避免断章取义
- 支持场景预设(动漫、新闻、科技等),自动优化翻译风格
- 使用 Gemini 模型进行润色与重译,保持语气连贯
4. 灵活编辑与导出
- 内置所见即所得编辑器:支持悬浮播放、原文/译文切换、搜索筛选、批量操作
- 导入 SRT/ASS 文件进行二次编辑
- 导出双语字幕或直接压制为带硬字幕的 MP4(支持 GPU 加速)
技术亮点
- 本地 Whisper 支持:可集成 whisper.cpp 实现完全离线转写,内置 CPU 版本,也支持 NVIDIA GPU 加速
- 智能后处理:
- 自动断句(基于语义与停顿)
- 修复 Whisper 输出的时间偏差
- 应用术语表统一译名
- 版本快照:每次批量重跑前自动保存状态,支持一键回滚
快速开始
- 下载安装
从 Releases 页面 下载 Gemini-Subtitle-Pro-x.x.x-win-x64.zip,解压后双击 .exe 启动。
- align-windows-x64.zip: 对齐时间轴的对齐器(源代码开源在:corvo007/forced-aligner)
- MahmoudAshraf_mms-300m-1130-forced-aligner.zip: 对齐模型
- Gemini-Subtitle-Pro-2.13.0-win-x64.zip: 主程序
- 配置 API Key
在设置中填入 Gemini 和 OpenAI 的 API Key。推荐使用中转站(如云雾 API)以提升稳定性。注意:需能访问 Gemini 3 Flash、Gemini 3 Pro 等模型[[9]]。 - 开始使用
粘贴视频链接 → 自动下载 → 转写 → 翻译 → 压制 → 输出成品。
适用场景
- 教育类视频(课程、讲座)字幕生成
- 多语播客/访谈内容本地化
- Bilibili/YouTube 创作者快速出双语视频
- 需要高精度时间轴的专业字幕制作
⚠️ 注意:暂不支持 Bilibili 番剧、付费课程、直播等内容,因涉及版权限制或登录态依赖。