MMAudio:基于多模态联合训练的同步音频生成系统 近年来,多模态生成模型在图像、视频和文本等领域取得了显著进展,但将视觉和文本信息与音频生成结合的任务仍然具有挑战性。传统的音频生成方法通常依赖于单一模态(如仅基于文本或仅基于视频),难以实现高质量的音... 语音模型# MMAudio# 音频生成 2周前01150