AutoMV

2周前发布 20 00

AutoMV 提出了一种新解法:无需训练模型,而是通过多智能体协作,将音乐信号、剧本创作、角色管理、视频生成与多模态验证整合为一个端到端流水线,直接从完整长度的音频自动生成专业级音乐视频。

所在地:
中国
收录时间:
2025-12-26

生成一段 30 秒的 AI 音乐视频已不稀奇,但要为一首 4 分钟的完整歌曲制作叙事连贯、角色一致、镜头流畅的高质量 MV,仍是巨大挑战。

AutoMV 提出了一种新解法:无需训练模型,而是通过多智能体协作,将音乐信号、剧本创作、角色管理、视频生成与多模态验证整合为一个端到端流水线,直接从完整长度的音频自动生成专业级音乐视频。

核心能力:从音频到完整 MV 的全流程自动化

AutoMV 不依赖单一 AI 模型,而是将任务分解为四个阶段,由多个智能体协同完成:

1. 音乐理解与预处理

  • 节拍与结构分析:使用 SongFormer 自动分割歌曲段落(主歌、副歌、桥段等)。
  • 人声/伴奏分离:基于 htdemucs 提取纯净人声音轨。
  • 歌词转录:通过 Whisper 生成带时间戳的歌词。
  • 音乐语义描述:调用 Qwen2.5-Omni 分析音乐风格、情绪、歌手特征(如“女声、抒情、90 年代 R&B”)。

2. 多智能体创作

  • 剧本创作智能体:根据音乐语义生成叙事主线、场景设定和角色背景。
  • 导演智能体:将剧本转化为分镜头脚本,指定镜头类型(特写、全景)、运镜方式、画面提示词。
  • 角色库:结构化存储角色外观(面部、发型、肤色、服装、年龄等),确保跨镜头身份一致。
  • 验证智能体:用 Gemini 检查画面是否符合物理常识、是否遵循指令、角色是否“跑偏”。

3. 自适应视频生成

  • 通用镜头:调用 Doubao Video API 生成电影级画面。
  • 对口型镜头:使用 Wan2.2-S2V-14B 模型,基于人声音频生成精准唇动视频(支持 480P/720P)。
  • 关键帧引导:每个片段以首帧图像为参考,确保视觉连续性。

4. 多模态验证与合成

  • 最终视频通过 ImageBind 评估音画对齐度。
  • 同时由 Gemini-2.5-Pro/Flash 按 12 项标准打分(技术、后期、内容、艺术)。
  • 也可接入人类专家评估(1–5 分制)。

性能表现:接近人类水平,远超现有工具

在包含 30 首专业歌曲的基准测试中,AutoMV 显著优于当前主流商业系统:

方法成本生成时间ImageBind 分数(↑)人类平均评分(↑)
Revid.ai-base~$105–10 分钟19.91.06
OpenArt-story$20–4010–20 分钟18.51.45
AutoMV(本文)$10–20~30 分钟24.42.42
人类专家制作≥$10,000数周24.12.90

AutoMV 在以下维度实现突破:

  • 角色一致性:同一角色在不同场景中外观稳定
  • 镜头连续性:避免跳切、视角突变
  • 音画同步:歌词、情绪、画面高度匹配
  • 长篇连贯性:整首歌曲 MV 有完整叙事弧线

使用方式(支持 API 与本地模型)

1. 快速启动(依赖 API)

git clone https://github.com/multimodal-art-projection/AutoMV.git
cd AutoMV
pip install -r requirements.txt
conda install -c conda-forge ffmpeg

配置环境变量(.bashrc 或运行前设置):

GEMINI_API_KEY=xxx
DOUBAO_API_KEY=xxx
ALIYUN_OSS_ACCESS_KEY_ID=xxx
ALIYUN_OSS_ACCESS_KEY_SECRET=xxx
HUOSHAN_ACCESS_KEY=xxx
HUOSHAN_SECRET_KEY=xxx

2. 准备音频

将歌曲(MP3/WAV)放入:

./result/{music_name}/{music_name}.mp3

注意{music_name} 仅限英文字母、数字、下划线。

3. 生成 MV

# (1) 生成每段的关键帧图像
python -m picture_generate.main

# (2) 生成并合成完整 MV
python generate_pipeline.py

最终输出:

  • mv_{music_name}.mp4:完整音乐视频
  • story.json:故事板
  • label.json:角色库
  • 各片段视频、音频、镜头指令等中间文件

4. 本地对口型生成(可选,低成本但耗时)

若想避免 API 费用,可本地运行 Wan2.2-S2V-14B:

  • 需 A800 等高端 GPU,单首歌曲约 4–5 小时
  • 支持 720P 视频生成,唇动精度高
  • 需单独创建 Conda 环境以避免依赖冲突

中国大陆用户提示:下载 Hugging Face 模型时,建议设置 HF_ENDPOINT=https://hf-mirror.com 加速。

数据统计

相关导航

暂无评论

none
暂无评论...