Video Caption Suite
Video Caption Suite

Video Caption Suite最新版

官方版无广告21

Video Caption Suite是一款使用 Qwen3-VL-8B 视觉语言模型进行批量视频字幕生成的应用。选择目录,处理视频,字幕将保存至视频旁。

更新日期:
2026年1月22日
语言:
中文
平台:

1.47MB0 人已下载 手机查看

还在手动为视频加字幕Video Caption Suite 是一个开源工具,基于通义千问最新视觉语言模型 Qwen3-VL-8B-Instruct,可自动分析视频内容并生成精准字幕。只需选择一个文件夹,它就能批量处理所有视频,并将 .txt 字幕文件保存在原视频旁。

Video Caption Suite

整个过程无需联网,所有计算在本地完成,保障隐私与效率。

核心特性

  • 批量处理:一次处理整个文件夹的视频
  • Qwen3-VL-8B 驱动:利用 8B 参数视觉语言模型理解画面与语音上下文
  • 本地输出:字幕以 .txt 文件形式保存在视频同目录
  • 多 GPU 并行:自动检测多卡环境,提升处理速度
  • 图形化界面:通过浏览器操作,无需命令行

系统要求

组件要求
操作系统Windows / Linux / macOS
Python3.10+
GPUCUDA 兼容显卡(单卡建议 ≥8GB 显存)
Node.js18+(用于前端构建)

多 GPU 场景下,每个 GPU 需约 16GB 显存 加载 Qwen3-VL-8B 模型。

快速开始

安装

# Windows
install.bat

# Linux / macOS
chmod +x install.sh && ./install.sh

脚本将自动创建虚拟环境并安装依赖。

启动

# Windows
start.bat

# Linux / macOS
./start.sh

然后在浏览器中打开 http://localhost:8000

使用流程

  1. 点击 Settings → 选择工作目录
  2. 系统自动扫描该目录下的所有视频
  3. 勾选需要处理的视频 → 点击 Process
  4. 等待处理完成,字幕文件(如 video.mp4.txt)将出现在原视频旁

高级配置

编辑 config.py 可调整模型行为:

参数默认值说明
MODEL_IDQwen/Qwen3-VL-8B-InstructHuggingFace 模型 ID
MAX_FRAMES_PER_VIDEO128每视频采样帧数(影响精度与速度)
FRAME_SIZE336输入帧分辨率(像素)
MAX_TOKENS512单次字幕最大长度
TEMPERATURE0.3生成随机性(越低越确定)

多 GPU 支持

当系统检测到多个 CUDA GPU 时:

  • 自动启用并行处理
  • 每个 GPU 独立加载模型副本
  • Settings → Optimization 中会出现“批处理大小”滑块(默认 = GPU 数量,最多 8)
  • 显著缩短大批量视频的处理时间

注意:多 GPU 模式对显存要求较高,建议每卡 ≥16GB。

适用场景

  • 自媒体创作者:快速为短视频生成字幕草稿
  • 教育工作者:为课程视频添加文字记录
  • 研究人员:批量分析视频内容
  • 个人归档:为家庭录像生成可搜索文本

相关软件

Voice-Pro

Voice-Pro - 最新版

Voice-Pro是一款革新多媒体内容制作的先进网页应用。它将YouTube视频下载、音频分离、语音识别、翻译和文本转语音(TTS)集成到一个强大的工具中,为创作者、研究人员和多语言专家提供理想的解决方案。
VideoLingo

VideoLingo - 最新版

VideoLingo 是一站式视频翻译本地化配音工具,能够一键生成 Netflix 级别的高质量字幕,告别生硬机翻,告别多行字幕,还能加上高质量的克隆配音,让全世界的知识能够跨越语言的障碍共享。
短视频工厂(AI Short Video Factory)

短视频工厂(AI Short Video Factory) - 最新版

短视频工厂是一个开源的桌面端应用,通过 AI 技术简化短视频的制作流程。用户可以通过简单的提示词文本+视频分镜素材,快速且自动的剪辑出高质量的产品营销和泛内容短视频。该项目集成了 AI 驱动的文案生成、语音合成、视频剪辑、字幕特效等功能,旨在为用户提供开箱即用的短视频制作体验。

暂无评论

none
暂无评论...