字节跳动推出视频生成模型训练新方法APT:通过在扩散预训练的基础上对真实数据进行对抗训练,以实现一步视频生成

扩散模型在图像和视频生成领域展示了卓越的能力,但其迭代性质导致了生成过程缓慢且计算成本高昂。尽管现有的蒸馏方法尝试通过一步生成来解决这一问题,但往往伴随着显著的生成质量下降。为了解决这些挑战,字节跳动提出了一种名为对抗性后训练(Adversarial Post-Training, APT)的新方法,该方法旨在通过在扩散预训练的基础上对真实数据进行对抗训练,以实现一步视频生成。

核心创新点

  • Seaweed-APT模型:通过对扩散预训练模型进一步实施对抗性后训练,研究人员开发了一个能够实时生成高质量内容的模型——Seaweed-APT。该模型能够在单次前向评估步骤中生成2秒长、分辨率为1280x720、帧率为24fps的视频,并能一步生成分辨率达到1024px的图像,其质量与当前最先进的方法相当。
  • 改进的模型架构和训练流程:为了提高训练稳定性和生成质量,研究团队在模型架构和训练流程中引入了多项改进。这包括采用一种近似的R1正则化目标,有助于保持训练过程中的稳定性,同时提升最终生成内容的质量。

主要功能

  1. 单步视频生成:Seaweed-APT模型能够在单个前向评估步骤中实时生成2秒、1280×720、24fps的视频。
  2. 高质量图像生成:该模型还能够在单步中生成1024px的图像,质量与最先进的方法相当。
  3. 训练稳定性和质量提升:通过引入模型架构和训练流程的改进,以及近似的R1正则化目标,提高了训练的稳定性和生成质量。

主要特点

  1. 高效性:Seaweed-APT显著减少了生成视频和图像所需的步骤,从传统的多步扩散过程转变为单步生成,大大提高了生成效率。
  2. 高质量生成:尽管是单步生成,Seaweed-APT在视觉保真度、结构完整性和文本对齐方面表现出色,特别是在视觉细节和真实性方面优于传统的扩散模型。
  3. 大规模训练:该方法能够在大规模数据集上进行训练,支持高达16B参数的生成器和判别器,是迄今为止报道的最大的生成对抗网络(GAN)之一。
  4. 开放性:模型的训练代码和权重将公开发布,促进了研究社区的复现和进一步研究。

工作原理

  • 预训练扩散模型:Seaweed-APT基于预训练的扩散模型(如扩散变换器DiT)进行初始化,而不是使用预训练模型作为蒸馏教师生成目标。
  • 对抗性后训练(APT):直接在真实数据上进行对抗性训练,使用预训练的扩散模型仅作为初始化。这种方法与传统的监督微调类似,但目标是生成能够欺骗判别器的样本。
  • 模型架构改进
    • 生成器:通过确定性蒸馏初始化生成器,使用均方误差损失进行简化。生成器在训练中主要关注单步生成能力。
    • 判别器:判别器使用预训练的扩散网络进行初始化,并在多个时间步上进行集成,以提高学习能力和稳定性。判别器还引入了多层特征提取,增强生成样本的结构和组成。
  • 近似R1正则化:为了稳定大规模训练,提出了一种近似的R1正则化损失,通过在真实数据上添加小方差的高斯噪声,鼓励判别器在真实数据和其扰动之间的预测接近,从而减少判别器在真实数据上的梯度。

具体应用场景

  1. 内容创作:艺术家和设计师可以利用Seaweed-APT快速生成高质量的图像和视频,用于创意设计、插画、动画等。
  2. 教育:教育工作者可以生成与教学内容相关的图像和视频,增强教学效果。
  3. 广告和营销:营销人员可以快速生成符合品牌风格的图像和视频,用于广告宣传和社交媒体内容。
  4. 游戏开发:游戏开发者可以生成游戏中的角色、场景和道具,加速游戏开发过程。
  5. 科研:研究人员可以利用Seaweed-APT生成特定条件下的图像和视频,用于模拟和实验研究。
0

评论0

没有账号?注册  忘记密码?