
DiffRhythm(谛韵)
DiffRhythm(中文名“谛韵”)是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)和香港中文大学(深圳)深圳大数据研究院联合开发的新型端到端全长度歌曲生成模型。基于潜扩散(Latent Diffusion)技术,DiffRhythm 能够快速生成包含人声和伴奏的完整歌曲,解决了现有音乐生成方法的诸多局限性。
生成一段 30 秒的 AI 音乐视频已不稀奇,但要为一首 4 分钟的完整歌曲制作叙事连贯、角色一致、镜头流畅的高质量 MV,仍是巨大挑战。
AutoMV 提出了一种新解法:无需训练模型,而是通过多智能体协作,将音乐信号、剧本创作、角色管理、视频生成与多模态验证整合为一个端到端流水线,直接从完整长度的音频自动生成专业级音乐视频。
AutoMV 不依赖单一 AI 模型,而是将任务分解为四个阶段,由多个智能体协同完成:
在包含 30 首专业歌曲的基准测试中,AutoMV 显著优于当前主流商业系统:
| 方法 | 成本 | 生成时间 | ImageBind 分数(↑) | 人类平均评分(↑) |
|---|---|---|---|---|
| Revid.ai-base | ~$10 | 5–10 分钟 | 19.9 | 1.06 |
| OpenArt-story | $20–40 | 10–20 分钟 | 18.5 | 1.45 |
| AutoMV(本文) | $10–20 | ~30 分钟 | 24.4 | 2.42 |
| 人类专家制作 | ≥$10,000 | 数周 | 24.1 | 2.90 |
AutoMV 在以下维度实现突破:
git clone https://github.com/multimodal-art-projection/AutoMV.git
cd AutoMV
pip install -r requirements.txt
conda install -c conda-forge ffmpeg
配置环境变量(.bashrc 或运行前设置):
GEMINI_API_KEY=xxx
DOUBAO_API_KEY=xxx
ALIYUN_OSS_ACCESS_KEY_ID=xxx
ALIYUN_OSS_ACCESS_KEY_SECRET=xxx
HUOSHAN_ACCESS_KEY=xxx
HUOSHAN_SECRET_KEY=xxx
将歌曲(MP3/WAV)放入:
./result/{music_name}/{music_name}.mp3
注意:
{music_name}仅限英文字母、数字、下划线。
# (1) 生成每段的关键帧图像
python -m picture_generate.main
# (2) 生成并合成完整 MV
python generate_pipeline.py
最终输出:
mv_{music_name}.mp4:完整音乐视频story.json:故事板label.json:角色库若想避免 API 费用,可本地运行 Wan2.2-S2V-14B:
中国大陆用户提示:下载 Hugging Face 模型时,建议设置
HF_ENDPOINT=https://hf-mirror.com加速。







