CutClaw

5天前发布 37 00

CutClaw 是一个面向长视频素材与音乐的端到端自动剪辑系统。它首先将原始视频和音频解析为结构化描述,再通过多智能体流水线完成镜头规划(shot_plan)、片段时间戳选取(shot_point)及质量验证,最终渲染输出成片。

所在地:
中国
收录时间:
2026-04-03

CutClaw 是由 北京交通大学、大湾区大学 GVC 实验室 和 腾讯 ARC 实验室 联合推出的智能长视频剪辑系统。它改变了传统视频剪辑的工作流,让用户只需输入一句自然语言指令,就能将数小时的原始素材自动剪辑成节奏精准、叙事流畅、符合创意的电影级蒙太奇。

无论是制作快节奏的人物高光混剪,还是慢节奏的情感叙事短片,CutClaw 都能通过其独特的 多智能体协作流水线,完美理解音乐节奏与用户意图,实现真正的“所想即所得”。

CutClaw

核心功能亮点

1. 音乐感知同步 (Music-Aware Sync)

  • 精准卡点:系统能深度分析音频的节拍(Downbeat)、音高(Pitch)和能量(Mel Energy),自动构建与音乐节奏完美契合的剪切点。
  • 情绪匹配:根据音乐的起伏变化,智能调整镜头切换速度和画面内容,让视觉与听觉高度统一。

2. 多智能体协作流水线

CutClaw 并非单一模型,而是一个由多个 AI 智能体组成的专家团队:

  • 📝编剧智能体 (Screenwriter Agent):理解用户的自然语言指令(如“做一个小丑的疯狂混剪”),规划整体叙事结构和情感基调。
  • 🎬 剪辑智能体 (Editor Agent):基于剧本规划,从海量素材中筛选最佳镜头,确定具体的入点和出点(Shot Point)。
  • 👁️ 审阅智能体 (Reviewer Agent):对初剪结果进行质量验证,确保画面连贯、主体清晰、节奏合理,并自动修正问题。

3. 自然语言指令控制

  • 零门槛操作:无需学习复杂的剪辑软件,只需输入文字指令。
    • 示例:“创建一个快节奏的蝙蝠侠战斗混剪,背景音乐要激昂。”
    • 示例:“做一段缓慢深情的回忆片段,聚焦主角的眼神特写。”
  • 灵活风格:支持动作、情感、悬疑等多种风格的自动适配。

4. 端到端自动化处理

  • 一键解析:自动将数小时的视频和音频解析为结构化的素材库(包含场景描述、语音转录、镜头边界等)。
  • 智能裁剪:内置内容感知裁剪算法,自动识别画面主体,并适配抖音 (9:16)、YouTube (16:9) 等不同平台比例。
  • 自动渲染:从素材导入到最终成片输出,全流程无需人工干预。

技术架构与工作原理

CutClaw 的工作流分为三个核心阶段:

  1. 素材结构化 (Parsing)
    • 利用多模态大模型(如 Gemini-3, Qwen3.5)对视频进行镜头检测和语义描述生成。
    • 使用 ASR 模型(如 Whisper 或云端 LLM)提取语音字幕。
    • 分析音频特征,提取节拍和能量曲线。
  2. 智能规划与剪辑 (Planning & Editing)
    • Shot Plan:编剧智能体根据用户指令生成镜头脚本。
    • Shot Point:剪辑智能体在素材库中匹配最佳片段,并依据音乐节拍确定精确的时间戳。
  3. 验证与渲染 (Verification & Rendering)
    • 审阅智能体检查剪辑逻辑和质量。
    • 调用 FFmpeg 进行最终合成、裁剪和编码输出。

快速开始指南

1. 环境安装

git clone https://github.com/GVCLab/CutClaw.git
cd CutClaw
conda create -n CutClaw python=3.12
conda activate CutClaw
pip install -r requirements.txt

💡 性能提示:强烈建议安装支持 GPU 加速 (NVDEC) 的 decord 版本,以大幅提升视频解码速度。

2. 准备素材

将文件放入 resource/ 目录:

resource/
├── video/      # 放入 .mp4 / .mkv 视频
├── audio/      # 放入 .mp3 / .wav 音乐
└── subtitle/   # (可选) .srt 字幕,可跳过 ASR 步骤

3. 运行方式

🖥️ 方式一:Web UI (推荐)

streamlit run app.py

在浏览器访问 http://localhost:8501,可视化选择文件、输入指令并监控进度。

CutClaw

💻 方式二:命令行 (进阶)

python local_run.py \
  --Video_Path "resource/video/my_video.mp4" \
  --Audio_Path "resource/audio/my_music.mp3" \
  --Instruction "Make a high-energy action montage of the main character." \
  --config.MAIN_CHARACTER_NAME "Batman" \
  --config.AUDIO_TOTAL_SHOTS 50

4. 模型配置建议

系统通过 LiteLLM 统一调用各类模型,建议在配置文件或环境变量中设置:

  • 视觉理解gemini-2.0-flashqwen2.5-vlgpt-4o
  • 音频/ASRgemini-2.0-flash (支持音频输入), whisper-large-v3
  • 智能体大脑minimax-abab6.5kimi-plusclaude-3.5-sonnet

关键参数调优

参数默认值说明调优建议
VIDEO_FPS2预处理采样帧率降低可加快解析速度,提高可增加细节捕捉
AUDIO_MIN/MAX_SEGMENT3.0 / 5.0节拍片段时长范围快节奏音乐可调小 (2-4s),慢节奏调大 (5-8s)
MAIN_CHARACTER_NAME-主角名称指定后可聚焦该角色的镜头,提升叙事集中度
PARALLEL_SHOT_MAX_WORKERS4并行线程数根据 API 并发限制调整,避免触发速率限制
crop-ratio-输出画幅比支持 9:16 (竖屏), 16:9 (横屏), 1:1 (方形)

常见问题与优化

  • 运行速度慢?
    • 原因:大量并发 API 请求受限于网络或服务商速率;首次解析需全量处理。
    • 解决:使用本地缓存(二次运行同素材极快);升级 GPU 加速解码;选择响应更快的模型提供商。
  • 视频编码报错?
    • 建议:确保源视频使用 libx264 编码,兼容性最佳。
  • 剪辑节奏不准?
    • 调整:修改 AUDIO_DETECTION_METHODS,尝试组合 downbeat (强拍), pitch (音高变化), mel_energy (旋律能量)。

应用场景

  • 短视频创作:快速将长视频素材转化为抖音/TikTok 卡点短视频。
  • 游戏高光集锦:自动提取游戏中的精彩击杀、操作瞬间,配合燃向音乐生成集锦。
  • 影视混剪 (AMV/FMV):粉丝无需专业剪辑技能,即可制作高质量的角色混剪视频。
  • Vlog 自动化:旅行或生活记录视频,自动配乐、卡点、裁剪,快速出片。
  • 企业宣传:将长时间的活动录像、会议记录快速剪辑成精华版宣传片。

数据统计

相关导航

暂无评论

none
暂无评论...