Video Caption Suite
Video Caption Suite

Video Caption Suite最新版

官方版无广告11

Video Caption Suite是一款使用 Qwen3-VL-8B 视觉语言模型进行批量视频字幕生成的应用。选择目录,处理视频,字幕将保存至视频旁。

更新日期:
2026年1月22日
语言:
中文
平台:

1.47MB0 人已下载 手机查看

还在手动为视频加字幕Video Caption Suite 是一个开源工具,基于通义千问最新视觉语言模型 Qwen3-VL-8B-Instruct,可自动分析视频内容并生成精准字幕。只需选择一个文件夹,它就能批量处理所有视频,并将 .txt 字幕文件保存在原视频旁。

Video Caption Suite

整个过程无需联网,所有计算在本地完成,保障隐私与效率。

核心特性

  • 批量处理:一次处理整个文件夹的视频
  • Qwen3-VL-8B 驱动:利用 8B 参数视觉语言模型理解画面与语音上下文
  • 本地输出:字幕以 .txt 文件形式保存在视频同目录
  • 多 GPU 并行:自动检测多卡环境,提升处理速度
  • 图形化界面:通过浏览器操作,无需命令行

系统要求

组件要求
操作系统Windows / Linux / macOS
Python3.10+
GPUCUDA 兼容显卡(单卡建议 ≥8GB 显存)
Node.js18+(用于前端构建)

多 GPU 场景下,每个 GPU 需约 16GB 显存 加载 Qwen3-VL-8B 模型。

快速开始

安装

# Windows
install.bat

# Linux / macOS
chmod +x install.sh && ./install.sh

脚本将自动创建虚拟环境并安装依赖。

启动

# Windows
start.bat

# Linux / macOS
./start.sh

然后在浏览器中打开 http://localhost:8000

使用流程

  1. 点击 Settings → 选择工作目录
  2. 系统自动扫描该目录下的所有视频
  3. 勾选需要处理的视频 → 点击 Process
  4. 等待处理完成,字幕文件(如 video.mp4.txt)将出现在原视频旁

高级配置

编辑 config.py 可调整模型行为:

参数默认值说明
MODEL_IDQwen/Qwen3-VL-8B-InstructHuggingFace 模型 ID
MAX_FRAMES_PER_VIDEO128每视频采样帧数(影响精度与速度)
FRAME_SIZE336输入帧分辨率(像素)
MAX_TOKENS512单次字幕最大长度
TEMPERATURE0.3生成随机性(越低越确定)

多 GPU 支持

当系统检测到多个 CUDA GPU 时:

  • 自动启用并行处理
  • 每个 GPU 独立加载模型副本
  • Settings → Optimization 中会出现“批处理大小”滑块(默认 = GPU 数量,最多 8)
  • 显著缩短大批量视频的处理时间

注意:多 GPU 模式对显存要求较高,建议每卡 ≥16GB。

适用场景

  • 自媒体创作者:快速为短视频生成字幕草稿
  • 教育工作者:为课程视频添加文字记录
  • 研究人员:批量分析视频内容
  • 个人归档:为家庭录像生成可搜索文本

相关软件

aiVideo

aiVideo - 最新版

aiVideo 将视频二创的全流程浓缩为一键操作,核心能力覆盖从内容理解到成品输出的所有关键环节,无需代码基础、无需手动逐帧剪辑、无需反复校准字幕,仅需上传原始视频,就能自动生成符合需求的成品内容。
Voice-Pro

Voice-Pro - 最新版

Voice-Pro是一款革新多媒体内容制作的先进网页应用。它将YouTube视频下载、音频分离、语音识别、翻译和文本转语音(TTS)集成到一个强大的工具中,为创作者、研究人员和多语言专家提供理想的解决方案。
Clipchamp

Clipchamp - 最新版

微软推出的易用视频编辑器 Clipchamp 中单击几下即可创建视频。这款视频制作软件采用拖放界面,对初学者非常友好,而且提供了高级视频编辑功能,可帮助你剪切、裁剪和调整视频大小,录制屏幕和网络摄像头,编辑绿屏视频,甚至添加 AI 画外音。使用 Clipchamp 制作有趣的社交媒体视频、销售宣传视频、深度教程等。

暂无评论

none
暂无评论...