基于优化框架的跨模态视频-音频生成方法Seeing and Hearing:能够同时生成视频和音频内容 香港科技大学和腾讯 PCG ARC 实验室推出基于优化框架的跨模态视频-音频生成方法Seeing and Hearing,它能够同时生成视频和音频内容。方法的主要创新点在于,通过预训练的多模态模型(如... 新技术# Seeing and Hearing# 优化框架# 跨模态视频-音频生成方法 1年前04620