开源视频生成项目Open-Sora Plan:基于多种用户输入生成高分辨率、长时长的理想视频

由北大-兔展AIGC联合实验室共同发起的Open-Sora Plan,目标是复现OpenAI的Sora模型。这是一个开源的大型视频生成模型项目,旨在基于多种用户输入生成高分辨率、长时长的理想视频。该项目包括多个组件,涵盖了从数据预处理到模型部署的整个视频生成过程,主要组件包括Wavelet-Flow变分自编码器(VAE)、联合图像-视频Skiparse去噪器以及各种条件控制器。此外,论文还提出了一系列高效的训练和推理策略,以及一个多维数据筛选流程,以获取高质量的数据。

例如,如果用户想要生成一个视频,描述“一只好奇的猫从一个舒适的隐藏处探出头来”,Open-Sora Plan能够根据这个文本提示生成一个视频,展示这一场景。此外,它还可以根据用户提供的特定结构信号(如边缘检测、深度图、草图等)来控制视频内容的生成。

主要功能和特点

  1. 多模态输入:支持文本、图像和结构信号等多种输入条件,实现精准的视频内容生成。
  2. 高效训练策略:包括MinMax Token策略、自适应梯度裁剪策略和提示优化策略,提高训练效率和模型性能。
  3. 多维数据筛选:自动化的数据筛选流程,确保数据的高质量,提升模型训练效果。
  4. 条件控制器:包括图像条件控制器和结构条件控制器,实现对视频生成的精细控制。

工作原理

  1. Wavelet-Flow VAE:通过多级小波变换在频率域获取多尺度特征,并将这些特征注入到卷积网络中,以压缩视频信号并为后续的扩散模型提供输入。
  2. 联合图像-视频Skiparse去噪器:在低维潜在空间中学习去噪过程,将输入的潜在表示转换为清晰的视频帧。
  3. 条件控制器:通过特定的结构信号(如Canny边缘、深度图等)来控制视频内容的生成,实现精确的视频内容操控。
    0

    评论0

    没有账号?注册  忘记密码?