CutClaw

5天前发布 37 00

CutClaw 是一个面向长视频素材与音乐的端到端自动剪辑系统。它首先将原始视频和音频解析为结构化描述，再通过多智能体流水线完成镜头规划（shot_plan）、片段时间戳选取（shot_point）及质量验证，最终渲染输出成片。

所在地：

中国

收录时间：

2026-04-03

打开网站手机查看

AI视频 # CutClaw # 视频剪辑

CutClaw

打开网站

CutClaw 是由 北京交通大学、大湾区大学 GVC 实验室 和 腾讯 ARC 实验室 联合推出的智能长视频剪辑系统。它改变了传统视频剪辑的工作流，让用户只需输入一句自然语言指令，就能将数小时的原始素材自动剪辑成节奏精准、叙事流畅、符合创意的电影级蒙太奇。

无论是制作快节奏的人物高光混剪，还是慢节奏的情感叙事短片，CutClaw 都能通过其独特的 多智能体协作流水线，完美理解音乐节奏与用户意图，实现真正的“所想即所得”。

核心功能亮点

1. 音乐感知同步 (Music-Aware Sync)

精准卡点：系统能深度分析音频的节拍（Downbeat）、音高（Pitch）和能量（Mel Energy），自动构建与音乐节奏完美契合的剪切点。
情绪匹配：根据音乐的起伏变化，智能调整镜头切换速度和画面内容，让视觉与听觉高度统一。

2. 多智能体协作流水线

CutClaw 并非单一模型，而是一个由多个 AI 智能体组成的专家团队：

📝编剧智能体 (Screenwriter Agent)：理解用户的自然语言指令（如“做一个小丑的疯狂混剪”），规划整体叙事结构和情感基调。
🎬 剪辑智能体 (Editor Agent)：基于剧本规划，从海量素材中筛选最佳镜头，确定具体的入点和出点（Shot Point）。
👁️ 审阅智能体 (Reviewer Agent)：对初剪结果进行质量验证，确保画面连贯、主体清晰、节奏合理，并自动修正问题。

3. 自然语言指令控制

零门槛操作：无需学习复杂的剪辑软件，只需输入文字指令。
- 示例：“创建一个快节奏的蝙蝠侠战斗混剪，背景音乐要激昂。”
- 示例：“做一段缓慢深情的回忆片段，聚焦主角的眼神特写。”
灵活风格：支持动作、情感、悬疑等多种风格的自动适配。

4. 端到端自动化处理

一键解析：自动将数小时的视频和音频解析为结构化的素材库（包含场景描述、语音转录、镜头边界等）。
智能裁剪：内置内容感知裁剪算法，自动识别画面主体，并适配抖音 (9:16)、YouTube (16:9) 等不同平台比例。
自动渲染：从素材导入到最终成片输出，全流程无需人工干预。

技术架构与工作原理

CutClaw 的工作流分为三个核心阶段：

素材结构化 (Parsing)：
- 利用多模态大模型（如 Gemini-3, Qwen3.5）对视频进行镜头检测和语义描述生成。
- 使用 ASR 模型（如 Whisper 或云端 LLM）提取语音字幕。
- 分析音频特征，提取节拍和能量曲线。
智能规划与剪辑 (Planning & Editing)：
- Shot Plan：编剧智能体根据用户指令生成镜头脚本。
- Shot Point：剪辑智能体在素材库中匹配最佳片段，并依据音乐节拍确定精确的时间戳。
验证与渲染 (Verification & Rendering)：
- 审阅智能体检查剪辑逻辑和质量。
- 调用 FFmpeg 进行最终合成、裁剪和编码输出。

快速开始指南

1. 环境安装

git clone https://github.com/GVCLab/CutClaw.git
cd CutClaw
conda create -n CutClaw python=3.12
conda activate CutClaw
pip install -r requirements.txt

💡 性能提示：强烈建议安装支持 GPU 加速 (NVDEC) 的 decord 版本，以大幅提升视频解码速度。

2. 准备素材

将文件放入 resource/ 目录：

resource/
├── video/      # 放入 .mp4 / .mkv 视频
├── audio/      # 放入 .mp3 / .wav 音乐
└── subtitle/   # (可选) .srt 字幕，可跳过 ASR 步骤

3. 运行方式

🖥️ 方式一：Web UI (推荐)

streamlit run app.py

在浏览器访问 http://localhost:8501，可视化选择文件、输入指令并监控进度。

💻 方式二：命令行 (进阶)

python local_run.py \
  --Video_Path "resource/video/my_video.mp4" \
  --Audio_Path "resource/audio/my_music.mp3" \
  --Instruction "Make a high-energy action montage of the main character." \
  --config.MAIN_CHARACTER_NAME "Batman" \
  --config.AUDIO_TOTAL_SHOTS 50

4. 模型配置建议

系统通过 LiteLLM 统一调用各类模型，建议在配置文件或环境变量中设置：

视觉理解：gemini-2.0-flash, qwen2.5-vl, gpt-4o
音频/ASR：gemini-2.0-flash (支持音频输入), whisper-large-v3
智能体大脑：minimax-abab6.5, kimi-plus, claude-3.5-sonnet

关键参数调优

参数	默认值	说明	调优建议
`VIDEO_FPS`	2	预处理采样帧率	降低可加快解析速度，提高可增加细节捕捉
`AUDIO_MIN/MAX_SEGMENT`	3.0 / 5.0	节拍片段时长范围	快节奏音乐可调小 (2-4s)，慢节奏调大 (5-8s)
`MAIN_CHARACTER_NAME`	-	主角名称	指定后可聚焦该角色的镜头，提升叙事集中度
`PARALLEL_SHOT_MAX_WORKERS`	4	并行线程数	根据 API 并发限制调整，避免触发速率限制
`crop-ratio`	-	输出画幅比	支持 `9:16` (竖屏), `16:9` (横屏), `1:1` (方形)

常见问题与优化

运行速度慢？
- 原因：大量并发 API 请求受限于网络或服务商速率；首次解析需全量处理。
- 解决：使用本地缓存（二次运行同素材极快）；升级 GPU 加速解码；选择响应更快的模型提供商。
视频编码报错？
- 建议：确保源视频使用 libx264 编码，兼容性最佳。
剪辑节奏不准？
- 调整：修改 AUDIO_DETECTION_METHODS，尝试组合 downbeat (强拍), pitch (音高变化), mel_energy (旋律能量)。

应用场景

短视频创作：快速将长视频素材转化为抖音/TikTok 卡点短视频。
游戏高光集锦：自动提取游戏中的精彩击杀、操作瞬间，配合燃向音乐生成集锦。
影视混剪 (AMV/FMV)：粉丝无需专业剪辑技能，即可制作高质量的角色混剪视频。
Vlog 自动化：旅行或生活记录视频，自动配乐、卡点、裁剪，快速出片。
企业宣传：将长时间的活动录像、会议记录快速剪辑成精华版宣传片。

数据统计

暂无评论

暂无评论...

CutClaw

核心功能亮点

1. 音乐感知同步 (Music-Aware Sync)

2. 多智能体协作流水线

3. 自然语言指令控制

4. 端到端自动化处理

技术架构与工作原理

快速开始指南

1. 环境安装

2. 准备素材

3. 运行方式

🖥️ 方式一：Web UI (推荐)

💻 方式二：命令行 (进阶)

4. 模型配置建议

关键参数调优

常见问题与优化

应用场景

数据统计

相关导航

Flow

Fogsight (雾象)

Moonvalley

特看

FLORA

Gaga AI

即梦AI

LTX Studio

暂无评论

网址

S.H.I.T

新Flova

Tripo

BuildCores

AI21 Labs

DrFonts

标签云

网址

S.H.I.T

新Flova

Tripo

BuildCores

AI21 Labs

DrFonts