多模态音乐生成系统VMB:够从多种输入模态(如文本、图像和视频)中生成音乐 多模态音乐生成旨在从多种输入模态(如文本、视频和图像)中生成音乐。尽管现有方法通过使用通用嵌入空间进行多模态融合,在其他任务中表现出色,但在多模态音乐生成中仍面临以下挑战: 数据稀缺:高质量的多模态音... 新技术# VMB# 音乐生成 2个月前01260