音频生成

近年来，多模态生成模型在图像、视频和文本等领域取得了显著进展，但将视觉和文本信息与音频生成结合的任务仍然具有挑战性。传统的音频生成方法通常依赖于单一模态（如仅基于文本或仅基于视频），难以实现高质量的音...

1年前

03110