智谱AI推出视频生成模型CogVideoX：与“清影”同源，单张 4090 显卡可推理

视频模型1年前更新小马良

813 0

智谱 AI推出与“清影”同源的视频生成模型 —CogVideoX，CogVideoX模型包含多个不同尺寸大小的模型，目前将开源 CogVideoX-2B，它在 FP-16 精度下的推理需 18GB 显存，微调则需要 40GB 显存，这意味着单张 4090 显卡即可进行推理，而单张 A6000 显卡即可完成微调。CogVideoX-2B 的提示词上限为 226 个 token，视频长度为 6 秒，帧率为 8 帧 / 秒，视频分辨率为 720*480。目前CogVideo的一些局限性，比如输入序列长度的限制，以及未来的改进方向。

清影：https://chatglm.cn/video
GitHub：https://github.com/THUDM/CogVideo
模型下载：https://huggingface.co/THUDM/CogVideoX-2b
ComfyUI插件：https://github.com/kijai/ComfyUI-CogVideoXWrapper

主要功能

文本到视频生成：用户输入文本描述，模型生成与之匹配的视频内容。

主要特点

大规模参数：CogVideo拥有9.4亿参数，这使得它能够捕捉和学习复杂的数据模式。
多帧率层次化训练：模型采用多帧率层次化训练策略，以更好地对齐文本和视频片段。
开源：CogVideo是首个开源的大规模预训练文本到视频生成模型。

工作原理

继承预训练模型：CogVideo基于CogView2构建，继承了其从文本到图像的生成能力。
多帧率对齐：通过在训练中引入帧率描述，模型能够更好地理解文本和视频的时间对应关系。
序列生成与帧插值：模型首先生成关键帧，然后通过帧插值生成中间帧，使视频连贯。

具体应用场景

数字艺术创作：艺术家和设计师可以使用CogVideo快速将创意文本转化为视觉视频内容。
社交媒体：用户可以利用CogVideo生成个性化的视频内容，用于社交媒体分享。
教育和培训：在教育领域，CogVideo可以用来创建教学视频，帮助解释复杂的概念或过程。
娱乐和游戏：在游戏设计中，CogVideo可以根据玩家的操作或选择实时生成视频内容。

视频模型 # CogVideoX # 智谱AI # 视频生成模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

字节跳动推出视频生成模型 Seedance 1.0，视频生成迈入“电影级”体验

字节跳动推出视频生成模型 Seedance 1.0，视频生成迈入“电影级”体验

视频模型 # Seedance 1.0 # 字节跳动 # 视频生成模型

10个月前

03180

巨人网络AI实验室推出YingVideo-MV：音乐驱动的多阶段视频生成框架，让 AI 会“演”一首歌

巨人网络AI实验室推出YingVideo-MV：音乐驱动的多阶段视频生成框架，让 AI 会“演”一首歌

视频模型 # YingVideo-MV

4个月前

0210

字节跳动提出OmniInsert：无需遮罩，任意对象都能自然插入视频

字节跳动提出OmniInsert：无需遮罩，任意对象都能自然插入视频

视频模型 # OmniInsert # 字节跳动 # 视频编辑

6个月前

01600

腾讯混元团队开源多模态定制化视频生成工具Hunyuan Custom：融合文本、图像、音频、视频等多模态输入生视频的能力

腾讯混元团队开源多模态定制化视频生成工具Hunyuan Custom：融合文本、图像、音频、视频等多模态输入生视频的能力

视频模型 # Hunyuan Custom # 多模态定制 # 腾讯

11个月前

04660

暂无评论

none

暂无评论...