如果你还在为视频字幕的生成、优化和翻译烦恼,那么VideoCaptioner(卡卡字幕助手)绝对值得一试!这是一款基于大语言模型(LLM)的视频字幕处理工具,支持语音识别、字幕断句、优化、翻译全流程处理,操作简单,无需高配置,无论是小白用户还是专业人士都能轻松上手。

软件亮点
- 强大的语音识别引擎:无需显卡,即可使用强大的语音识别引擎,生成精准字幕。
- 智能断句与优化:基于大语言模型的智能分割与断句,让字幕阅读更自然流畅。
- 多线程优化与翻译:AI字幕多线程优化与翻译,调整字幕格式,表达更地道专业。
- 批量处理:支持批量视频字幕合成,大幅提升处理效率。
- 直观编辑界面:支持实时预览和快捷编辑,所见即所得。
- 低消耗:消耗模型Token少,且内置基础LLM模型,保证开箱即用。
- 轻量级软件:Windows用户福音!软件打包大小不足60M,已集成所有必要环境,下载后直接运行。
功能详解
1.视频加载/下载
支持国内外主流视频平台(B站、Youtube、小红书、TikTok、X、西瓜视频、抖音等),自动提取视频原有字幕处理。如果需要下载受限制的视频,可以通过配置Cookie来获取登录信息,确保下载高质量视频。
- 注:推荐大家使用其他在线视频下载平台下载视频,然后导入进行转录翻译。下载平台推荐cobalt

2. 语音识别
VideoCaptioner支持多种语音识别方式,包括在线接口和本地离线模型,用户可以根据需求灵活选择。

- 在线接口:
- B接口:支持中英文,免费且速度快。
- J接口:同样支持中英文,免费且速度快。
- 本地离线模型:
- WhisperCpp:支持多种语言,但实际使用不稳定。
- fasterWhisper:极力推荐!支持多种语言,时间轴更准确,支持CUDA加速,转录效果出色。
Whisper 版本有 WhisperCpp 和 fasterWhisper(推荐) 两种,后者效果更好,都需要自行在软件内下载模型。注:以上模型国内网络可直接在软件内下载,本人测试确定是从魔塔社区下载,速度很快。
模型 | 磁盘空间 | 内存占用 | 说明 |
---|---|---|---|
Tiny | 75 MiB | ~273 MB | 转录很一般,仅用于测试 |
Small | 466 MiB | ~852 MB | 英文识别效果已经不错 |
Medium | 1.5 GiB | ~2.1 GB | 中文识别建议至少使用此版本 |
Large-v2 👍 | 2.9 GiB | ~3.9 GB | 效果好,配置允许情况推荐使用 |
Large-v3 | 2.9 GiB | ~3.9 GB | 社区反馈可能会出现幻觉/字幕重复问题 |
Large-v3-turbo👍 | 1.6 GiB | ~1.9 GB | 效果号,速度快,推荐使用 |
推荐模型: Large-v2
和Large-v3-turbo稳定且质量较好。
VAD过滤
:开启后,VAD(语音活动检测)将过滤无人声的语音片段,从而减少幻觉现象。建议保持默认开启状态。如果不懂,其他VAD选项建议直接保持默认即可。音频分离
:开启后,使用MDX-Net进行降噪处理,能够有效分离人声和背景音乐,从而提升音频质量。建议只在嘈杂的视频中开启。

3. 字幕优化与翻译
VideoCaptioner利用LLM的强大能力,对生成的字幕进行智能优化和翻译。
- 智能断句:将逐字字幕重组为符合自然语言习惯的段落,提升阅读体验。
- 字幕校正:自动修正错别字、统一专业术语,优化标点符号和格式。
- 高质量翻译:结合上下文的智能翻译,支持“翻译-反思-翻译”方法论,确保译文准确自然。
配置项 | 说明 |
---|---|
LLM 大模型翻译 | 🌟 翻译质量最好的选择。使用 AI 大模型进行翻译,能更好理解上下文,翻译更自然。需要在设置中配置 LLM API(比如 OpenAI、DeepSeek 等) |
DeepLx 翻译 | 翻译较可靠。基于 DeepL 翻译, 需要要配置自己的后端接口。 |
微软翻译 | 使用微软的翻译服务, 速度非常快 |
谷歌翻译 | 谷歌的翻译服务,速度快,但需要能访问谷歌的网络环境 |
推荐使用 LLM 大模型翻译
,翻译质量最好。
智能断句
:开启后,全流程处理时生成字级时间戳,然后通过LLM大模型进行断句,从而在视频有更完美的观看体验。有按照句子断句和按照语义断句两种模式。可根据自己的需求配置。字幕校正
:开启后,会通过LLM大模型对字幕内容进行校正(如:英文单词大小写、标点符号、错别字、数学公式和代码的格式等),提升字幕的质量。反思翻译
:开启后,会通过LLM大模型进行反思翻译,提升翻译的质量。相应的会增加请求的时间和消耗的Token。(选项在 设置页-LLM大模型翻译-反思翻译 中开启。)文稿提示
:填写后,这部分也将作为提示词发送给大模型,辅助字幕优化和翻译。
LLM 大模型是用来字幕段句、字幕优化、以及字幕翻译(如果选择了LLM 大模型翻译),建议使用DeepSeek进行翻译,准确率较高,价格低,性价比十足。
配置项 | 说明 |
---|---|
硅基流动 | SiliconCloud 官网配置方法请参考配置文档 该并发较低,建议把线程设置为5以下。 |
DeepSeek | DeepSeek 官网,建议使用 deepseek-v3 模型。 |
Ollama本地 | Ollama 官网 |
内置公益模型 | 内置基础大语言模型(gpt-4o-mini )(公益服务不稳定,强烈建议请使用自己的模型API) |
OpenAI兼容接口 | 如果有其他服务商的API,可直接在软件中填写。base_url 和api_key |
注:如果用的 API 服务商不支持高并发,请在软件设置中将“线程数”调低,避免请求错误。
4. 字幕样式调整
提供丰富的字幕样式模板,如科普风、新闻风、番剧风等,支持多种字幕格式(SRT、ASS、VTT、TXT),满足不同用户的需求。

5 视频合成
支持将字幕烧录到视频中,也支持生成软字幕,方便用户根据需求选择。注:最后一步合成视频,建议取消,将字幕导入到剪映这类剪辑软件进行合成,灵活性更高。
视频合成
:开启后,会根据合成字幕视频;关闭将跳过视频合成的流程。软字幕
:开启后,字幕不会烧录到视频中,处理速度极快。但是软字幕需要一些播放器(如PotPlayer)支持才可以进行显示播放。而且软字幕的样式不是软件内调整的字幕样式,而是播放器默认的白色样式。

使用流程
- 下载与安装
- 从Release页面下载最新版本的可执行程序。
- 打开安装包进行安装。
- 配置
- 配置LLM API(用于字幕断句和优化)。
- 配置翻译服务(推荐使用LLM大模型翻译)。
- 配置语音识别接口(推荐使用fasterWhisper)。
- 处理视频
- 拖拽视频文件到软件窗口,即可全自动处理。
- 支持单独处理每个步骤,如语音识别、字幕优化、翻译和视频合成。

适用场景
- 视频创作者:快速生成高质量字幕,提升视频制作效率。
- 教育工作者:为教学视频添加精准字幕,方便学生学习。
- 自媒体运营者:优化字幕内容,提升视频吸引力。
- 多语言内容制作者:高效翻译字幕,拓展内容的国际影响力。