智谱AI推出视频生成模型CogVideoX:与“清影”同源,单张 4090 显卡可推理

智谱 AI推出与“清影”同源的视频生成模型 —CogVideoX,CogVideoX模型包含多个不同尺寸大小的模型,目前将开源 CogVideoX-2B,它在 FP-16 精度下的推理需 18GB 显存,微调则需要 40GB 显存,这意味着单张 4090 显卡即可进行推理,而单张 A6000 显卡即可完成微调。CogVideoX-2B 的提示词上限为 226 个 token,视频长度为 6 秒,帧率为 8 帧 / 秒,视频分辨率为 720*480。目前CogVideo的一些局限性,比如输入序列长度的限制,以及未来的改进方向。

主要功能

  • 文本到视频生成:用户输入文本描述,模型生成与之匹配的视频内容。

主要特点

  • 大规模参数:CogVideo拥有9.4亿参数,这使得它能够捕捉和学习复杂的数据模式。
  • 多帧率层次化训练:模型采用多帧率层次化训练策略,以更好地对齐文本和视频片段。
  • 开源:CogVideo是首个开源的大规模预训练文本到视频生成模型。

工作原理

  1. 继承预训练模型:CogVideo基于CogView2构建,继承了其从文本到图像的生成能力。
  2. 多帧率对齐:通过在训练中引入帧率描述,模型能够更好地理解文本和视频的时间对应关系。
  3. 序列生成与帧插值:模型首先生成关键帧,然后通过帧插值生成中间帧,使视频连贯。

具体应用场景

  • 数字艺术创作:艺术家和设计师可以使用CogVideo快速将创意文本转化为视觉视频内容。
  • 社交媒体:用户可以利用CogVideo生成个性化的视频内容,用于社交媒体分享。
  • 教育和培训:在教育领域,CogVideo可以用来创建教学视频,帮助解释复杂的概念或过程。
  • 娱乐和游戏:在游戏设计中,CogVideo可以根据玩家的操作或选择实时生成视频内容。
0

评论0

没有账号?注册  忘记密码?