aiVideo - 最新版
aiVideo 将视频二创的全流程浓缩为一键操作,核心能力覆盖从内容理解到成品输出的所有关键环节,无需代码基础、无需手动逐帧剪辑、无需反复校准字幕,仅需上传原始视频,就能自动生成符合需求的成品内容。


Video Caption Suite是一款使用 Qwen3-VL-8B 视觉语言模型进行批量视频字幕生成的应用。选择目录,处理视频,字幕将保存至视频旁。
1.47MB0 人已下载 手机查看
还在手动为视频加字幕?Video Caption Suite 是一个开源工具,基于通义千问最新视觉语言模型 Qwen3-VL-8B-Instruct,可自动分析视频内容并生成精准字幕。只需选择一个文件夹,它就能批量处理所有视频,并将 .txt 字幕文件保存在原视频旁。

整个过程无需联网,所有计算在本地完成,保障隐私与效率。
.txt 文件形式保存在视频同目录| 组件 | 要求 |
|---|---|
| 操作系统 | Windows / Linux / macOS |
| Python | 3.10+ |
| GPU | CUDA 兼容显卡(单卡建议 ≥8GB 显存) |
| Node.js | 18+(用于前端构建) |
多 GPU 场景下,每个 GPU 需约 16GB 显存 加载 Qwen3-VL-8B 模型。
# Windows
install.bat
# Linux / macOS
chmod +x install.sh && ./install.sh
脚本将自动创建虚拟环境并安装依赖。
# Windows
start.bat
# Linux / macOS
./start.sh
然后在浏览器中打开 http://localhost:8000。
video.mp4.txt)将出现在原视频旁编辑 config.py 可调整模型行为:
| 参数 | 默认值 | 说明 |
|---|---|---|
MODEL_ID | Qwen/Qwen3-VL-8B-Instruct | HuggingFace 模型 ID |
MAX_FRAMES_PER_VIDEO | 128 | 每视频采样帧数(影响精度与速度) |
FRAME_SIZE | 336 | 输入帧分辨率(像素) |
MAX_TOKENS | 512 | 单次字幕最大长度 |
TEMPERATURE | 0.3 | 生成随机性(越低越确定) |
当系统检测到多个 CUDA GPU 时:
注意:多 GPU 模式对显存要求较高,建议每卡 ≥16GB。