AutoMV

3个月前发布 56 00

AutoMV 提出了一种新解法：无需训练模型，而是通过多智能体协作，将音乐信号、剧本创作、角色管理、视频生成与多模态验证整合为一个端到端流水线，直接从完整长度的音频自动生成专业级音乐视频。

所在地：

中国

收录时间：

2025-12-26

打开网站手机查看

AutoMV

打开网站

生成一段 30 秒的 AI 音乐视频已不稀奇，但要为一首 4 分钟的完整歌曲制作叙事连贯、角色一致、镜头流畅的高质量 MV，仍是巨大挑战。

AutoMV 提出了一种新解法：无需训练模型，而是通过多智能体协作，将音乐信号、剧本创作、角色管理、视频生成与多模态验证整合为一个端到端流水线，直接从完整长度的音频自动生成专业级音乐视频。

核心能力：从音频到完整 MV 的全流程自动化

AutoMV 不依赖单一 AI 模型，而是将任务分解为四个阶段，由多个智能体协同完成：

1. 音乐理解与预处理

节拍与结构分析：使用 SongFormer 自动分割歌曲段落（主歌、副歌、桥段等）。
人声/伴奏分离：基于 htdemucs 提取纯净人声音轨。
歌词转录：通过 Whisper 生成带时间戳的歌词。
音乐语义描述：调用 Qwen2.5-Omni 分析音乐风格、情绪、歌手特征（如“女声、抒情、90 年代 R&B”）。

2. 多智能体创作

剧本创作智能体：根据音乐语义生成叙事主线、场景设定和角色背景。
导演智能体：将剧本转化为分镜头脚本，指定镜头类型（特写、全景）、运镜方式、画面提示词。
角色库：结构化存储角色外观（面部、发型、肤色、服装、年龄等），确保跨镜头身份一致。
验证智能体：用 Gemini 检查画面是否符合物理常识、是否遵循指令、角色是否“跑偏”。

3. 自适应视频生成

通用镜头：调用 Doubao Video API 生成电影级画面。
对口型镜头：使用 Wan2.2-S2V-14B 模型，基于人声音频生成精准唇动视频（支持 480P/720P）。
关键帧引导：每个片段以首帧图像为参考，确保视觉连续性。

4. 多模态验证与合成

最终视频通过 ImageBind 评估音画对齐度。
同时由 Gemini-2.5-Pro/Flash 按 12 项标准打分（技术、后期、内容、艺术）。
也可接入人类专家评估（1–5 分制）。

性能表现：接近人类水平，远超现有工具

在包含 30 首专业歌曲的基准测试中，AutoMV 显著优于当前主流商业系统：

方法	成本	生成时间	ImageBind 分数（↑）	人类平均评分（↑）
Revid.ai-base	~$10	5–10 分钟	19.9	1.06
OpenArt-story	$20–40	10–20 分钟	18.5	1.45
AutoMV（本文）	$10–20	~30 分钟	24.4	2.42
人类专家制作	≥$10,000	数周	24.1	2.90

AutoMV 在以下维度实现突破：

角色一致性：同一角色在不同场景中外观稳定
镜头连续性：避免跳切、视角突变
音画同步：歌词、情绪、画面高度匹配
长篇连贯性：整首歌曲 MV 有完整叙事弧线

使用方式（支持 API 与本地模型）

1. 快速启动（依赖 API）

git clone https://github.com/multimodal-art-projection/AutoMV.git
cd AutoMV
pip install -r requirements.txt
conda install -c conda-forge ffmpeg

配置环境变量（.bashrc 或运行前设置）：

GEMINI_API_KEY=xxx
DOUBAO_API_KEY=xxx
ALIYUN_OSS_ACCESS_KEY_ID=xxx
ALIYUN_OSS_ACCESS_KEY_SECRET=xxx
HUOSHAN_ACCESS_KEY=xxx
HUOSHAN_SECRET_KEY=xxx

2. 准备音频

将歌曲（MP3/WAV）放入：

./result/{music_name}/{music_name}.mp3

注意：{music_name} 仅限英文字母、数字、下划线。

3. 生成 MV

# (1) 生成每段的关键帧图像
python -m picture_generate.main

# (2) 生成并合成完整 MV
python generate_pipeline.py

最终输出：

mv_{music_name}.mp4：完整音乐视频
story.json：故事板
label.json：角色库
各片段视频、音频、镜头指令等中间文件

4. 本地对口型生成（可选，低成本但耗时）

若想避免 API 费用，可本地运行 Wan2.2-S2V-14B：

需 A800 等高端 GPU，单首歌曲约 4–5 小时
支持 720P 视频生成，唇动精度高
需单独创建 Conda 环境以避免依赖冲突

中国大陆用户提示：下载 Hugging Face 模型时，建议设置 HF_ENDPOINT=https://hf-mirror.com 加速。

数据统计

海绵音乐

DiffRhythm（谛韵）

DiffRhythm（中文名“谛韵”）是由西北工业大学音频、语音与语言处理研究组（ASLP Lab）和香港中文大学（深圳）深圳大数据研究院联合开发的新型端到端全长度歌曲生成模型。基于潜扩散（Latent Diffusion）技术，DiffRhythm 能够快速生成包含人声和伴奏的完整歌曲，解决了现有音乐生成方法的诸多局限性。

Beatoven.ai

Beatoven.ai 是视听故事讲述者的强大工具，它将复杂的音乐创作过程简化为一个直观、高效的AI驱动平台。无论你是新手还是资深创作者，Beatoven.ai 都能帮助你轻松创作出符合需求的高质量背景音乐，让你的内容更加生动、引人入胜。

ProducerAI

ProducerAI是创意的得力助手，无论你是创作歌词、完善旋律，还是打造全新的音乐类型，它都能帮助你将想象转化为生动精彩的歌曲。

Udio

Udio是一款AI音乐创作工具，能够根据用户输入的音乐风格、情感、主题等要求，快速生成相应的音乐作品。

暂无评论

暂无评论...

AutoMV

核心能力：从音频到完整 MV 的全流程自动化

1. 音乐理解与预处理

2. 多智能体创作

3. 自适应视频生成

4. 多模态验证与合成

性能表现：接近人类水平，远超现有工具

使用方式（支持 API 与本地模型）

1. 快速启动（依赖 API）

2. 准备音频

3. 生成 MV

4. 本地对口型生成（可选，低成本但耗时）

数据统计

相关导航

Riffusion

Suno

Songscription

海绵音乐

DiffRhythm（谛韵）

Beatoven.ai

ProducerAI

Udio

暂无评论

网址

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

waoo

新ArkClaw

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

waoo

新ArkClaw

AutoMV

核心能力：从音频到完整 MV 的全流程自动化

1. 音乐理解与预处理

2. 多智能体创作

3. 自适应视频生成

4. 多模态验证与合成

性能表现：接近人类水平，远超现有工具

使用方式（支持 API 与本地模型）

1. 快速启动（依赖 API）

2. 准备音频

3. 生成 MV

4. 本地对口型生成（可选，低成本但耗时）

数据统计

相关导航

Riffusion

Suno

Songscription

海绵音乐

DiffRhythm（谛韵）

Beatoven.ai

ProducerAI

Udio

暂无评论

网址

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

waoo

新ArkClaw

标签云

网址

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

waoo

新ArkClaw