Video Caption Suite
Video Caption Suite

Video Caption Suite最新版

官方版无广告24

Video Caption Suite是一款使用 Qwen3-VL-8B 视觉语言模型进行批量视频字幕生成的应用。选择目录,处理视频,字幕将保存至视频旁。

更新日期:
2026年1月22日
语言:
中文
平台:

1.47MB0 人已下载 手机查看

还在手动为视频加字幕Video Caption Suite 是一个开源工具,基于通义千问最新视觉语言模型 Qwen3-VL-8B-Instruct,可自动分析视频内容并生成精准字幕。只需选择一个文件夹,它就能批量处理所有视频,并将 .txt 字幕文件保存在原视频旁。

Video Caption Suite

整个过程无需联网,所有计算在本地完成,保障隐私与效率。

核心特性

  • 批量处理:一次处理整个文件夹的视频
  • Qwen3-VL-8B 驱动:利用 8B 参数视觉语言模型理解画面与语音上下文
  • 本地输出:字幕以 .txt 文件形式保存在视频同目录
  • 多 GPU 并行:自动检测多卡环境,提升处理速度
  • 图形化界面:通过浏览器操作,无需命令行

系统要求

组件要求
操作系统Windows / Linux / macOS
Python3.10+
GPUCUDA 兼容显卡(单卡建议 ≥8GB 显存)
Node.js18+(用于前端构建)

多 GPU 场景下,每个 GPU 需约 16GB 显存 加载 Qwen3-VL-8B 模型。

快速开始

安装

# Windows
install.bat

# Linux / macOS
chmod +x install.sh && ./install.sh

脚本将自动创建虚拟环境并安装依赖。

启动

# Windows
start.bat

# Linux / macOS
./start.sh

然后在浏览器中打开 http://localhost:8000

使用流程

  1. 点击 Settings → 选择工作目录
  2. 系统自动扫描该目录下的所有视频
  3. 勾选需要处理的视频 → 点击 Process
  4. 等待处理完成,字幕文件(如 video.mp4.txt)将出现在原视频旁

高级配置

编辑 config.py 可调整模型行为:

参数默认值说明
MODEL_IDQwen/Qwen3-VL-8B-InstructHuggingFace 模型 ID
MAX_FRAMES_PER_VIDEO128每视频采样帧数(影响精度与速度)
FRAME_SIZE336输入帧分辨率(像素)
MAX_TOKENS512单次字幕最大长度
TEMPERATURE0.3生成随机性(越低越确定)

多 GPU 支持

当系统检测到多个 CUDA GPU 时:

  • 自动启用并行处理
  • 每个 GPU 独立加载模型副本
  • Settings → Optimization 中会出现“批处理大小”滑块(默认 = GPU 数量,最多 8)
  • 显著缩短大批量视频的处理时间

注意:多 GPU 模式对显存要求较高,建议每卡 ≥16GB。

适用场景

  • 自媒体创作者:快速为短视频生成字幕草稿
  • 教育工作者:为课程视频添加文字记录
  • 研究人员:批量分析视频内容
  • 个人归档:为家庭录像生成可搜索文本

相关软件

VideoLingo

VideoLingo - 最新版

VideoLingo 是一站式视频翻译本地化配音工具,能够一键生成 Netflix 级别的高质量字幕,告别生硬机翻,告别多行字幕,还能加上高质量的克隆配音,让全世界的知识能够跨越语言的障碍共享。
WanGP

WanGP - 最新版

WanGP是一款强大的开源视频生成工具,专为显存受限的用户设计,支持多种前沿模型架构,包括 Wan2.1、Hunyuan Video 和 LTX Video。无论您是使用老旧显卡(如 RTX 10XX、20XX)还是最新 GPU,WanGP 都能以极低的显存需求实现流畅的视频生成体验。

暂无评论

none
暂无评论...