新型多模态DiT模型AV-DiT:生成既有视觉画面又有声音的高质量视频

来自多伦多大学、德克萨斯大学达拉斯分校和Adobe研究中心的研究人员推出新型多模态扩散变换器AV-DiT(Audio-Visual Diffusion Transformer),它专门设计用于联合生成高质量的视频和音频内容。例如,你想创造一个既有视觉画面又有声音的视频,AV-DiT可以帮助你实现这一目标,无论是用于娱乐、教育还是其他任何需要同步视听内容的场景。

  • 论文地址:https://arxiv.org/abs/2406.07686

为了减少模型复杂度并控制计算开销,AV-DiT采纳了一个预先在纯图像数据上训练好的共享DiT主干,并仅对新增的轻量化适配器层进行训练。这一共享架构同时赋能了音频与视频的生成过程。 具体实现上,视频生成分支通过在预训练并固定的DiT模块中嵌入一个可训练的时间注意力层,以维护时间连贯性。 另外,通过对基于图像的DiT模块进行轻微参数调整,使之能够适应音频生成任务。更进一步,增加了一层配备精简参数的共享DiT模块,专门促进音频与视觉模态间的特征互动与同步。

主要功能:

  • 联合音频视频生成:AV-DiT能够同时生成与视频内容相匹配的音频,提供完整的视听体验。

主要特点:

  1. 共享DiT骨干:AV-DiT利用了在图像数据上预训练的扩散变换器(DiT)作为共享骨干,这有助于减少模型复杂性和计算成本。
  2. 轻量级可训练层:通过插入轻量级的可训练适配器(如LoRA和适配器层),AV-DiT能够扩展图像生成能力到音视频联合生成。
  3. 端到端设计:AV-DiT采用端到端的方式,直接从高斯噪声生成目标分辨率的视频,无需额外的上采样网络。

工作原理:

  • AV-DiT基于扩散模型的原理,首先通过前向扩散过程将真实样本逐步转化为高斯噪声,然后通过学习到的去噪网络反向过程逐步恢复数据分布。
  • 模型使用预训练的变分自编码器(VAE)将输入视频和音频压缩到低维特征空间,然后通过AV-DiT块进行联合去噪,生成视频和音频的潜在代码。
  • AV-DiT块设计包括时间适配器和领域特定的适配器,以保持视频的时间一致性,减少图像和音频之间的域间隙,并实现音频和视频特征的多模态对齐。

具体应用场景:

  • 娱乐行业:AV-DiT可以用于生成与音乐视频或电影场景同步的视听内容。
  • 教育领域:在教育中,它可以创造教育视频,例如科学实验或历史事件的重现,提供更加生动的学习体验。
  • 虚拟现实:为虚拟现实应用生成沉浸式的音视频环境,提升用户的体验。
  • 辅助技术:为有视觉或听力障碍的人士生成定制的视听内容,提高他们的生活质量。

总的来说,AV-DiT是一个创新的多模态生成模型,它通过结合视觉和音频的生成能力,为创造丰富多维的视听内容提供了新的可能性。

0

评论0

没有账号?注册  忘记密码?