FoleyCrafter:用于将无声视频通过自动生成高质量、与视频同步的声音效果,从而带来沉浸式的视听体验

上海人工智能实验室he 香港中文大学(深圳)的研究人员推出FoleyCrafter系统,它专门用于将无声视频通过自动生成高质量、与视频同步的声音效果,从而带来沉浸式的视听体验。这项技术在电影、电视和游戏的后期制作中非常重要,因为它能够增强现实感、冲击力和情感深度。

例如,你正在观看一部科幻电影,屏幕上显示的是一艘飞船在太空中飞行的场景。在现实中,这个场景是无声的,但通过FoleyCrafter,可以自动为这个场景生成飞船引擎的轰鸣声、宇宙射线的嗡嗡声,甚至是飞船内部微小的电子设备工作的声音。这些声音与画面同步,让观众感觉就像是真的处在飞船中一样。

FoleyCrafter利用预训练的文本至音频转换模型来确保音频制作的高品质。FoleyCrafter的一大创新点在于它能够接纳文本指令,使得用户能够依据自身意图,利用文本描述引导音频生成过程,实现视频到音频转化的多样性和可控制性。FoleyCrafter的核心由两部分构成:一是负责实现语义对齐的“语义调节器”,二是用于实现音频与视频精确时间同步的“时间控制器”。具体而言,语义调节器借助并行交叉注意力层,依据视频特征指导音频生成过程,从而创造出与视觉场景语义相符、极为逼真的音效。另一方面,时间控制器通过集成启动点检测器和基于时间戳的调节机制,确保音频与视频的精准对齐。

主要功能

  • 自动为无声视频生成声音效果。
  • 确保声音效果与视频内容在语义上相关并且时间上同步。

主要特点

  • 高质量音频生成:使用预训练的文本到音频模型来保证生成声音的质量。
  • 语义适配器:通过并行交叉注意力层,将视频特征融入音频生成过程中,生成与视觉内容相关的现实声音效果。
  • 时间控制器:包含起始探测器和基于时间戳的适配器,实现精确的音视频对齐。

工作原理

  1. 语义适配:FoleyCrafter使用一个视觉编码器和并行交叉注意力层,将视频特征作为输入,生成与视频内容语义相关的声音。
  2. 时间控制:通过起始探测器预测视频中的声音发生和静音间隔,然后基于时间戳的适配器进一步细化这些预测,确保声音和静音与视频的时间流同步。

具体应用场景

  • 电影和视频后期制作:为电影、电视剧或网络视频添加或增强同步声音效果。
  • 游戏开发:为游戏中的场景和动作生成逼真的声音,提升玩家的沉浸感。
  • 虚拟现实内容创作:在虚拟现实环境中,为无声的视觉内容添加匹配的声音效果。
0

评论0

没有账号?注册  忘记密码?