新型多模态DiT模型AV-DiT:生成既有视觉画面又有声音的高质量视频 来自多伦多大学、德克萨斯大学达拉斯分校和Adobe研究中心的研究人员推出新型多模态扩散变换器AV-DiT(Audio-Visual Diffusion Transformer),它专门设计用于联合生成... 新技术# AV-DiT# DiT模型 8个月前04060