智谱 AI 开源视频生成模型 CogVideoX-5B ，RTX 3060 显卡可运行

视频模型1年前更新小马良

1,169 0

之前已经给大家分享了《智谱AI推出视频生成模型CogVideoX：与“清影”同源，单张 4090 显卡可推理》，之前推出的是CogVideoX-2B模型，智谱 AI又开源了CogVideoX-5B，相比此前开源的 CogVideoX-2B，官方称其视频生成质量更高，视觉效果更好。

代码仓库：https://github.com/THUDM/CogVideo
模型下载：https://huggingface.co/THUDM/CogVideoX-5b
Demo：https://huggingface.co/spaces/THUDM/CogVideoX-5B-Space

官方表示大幅度优化了模型的推理性能，推理门槛大幅降低，可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ，在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。

CogVideoX 是一个大规模 DiT（diffusion transformer）模型，用于文本生成视频任务，主要采用了以下技术：

3D causal VAE：通过压缩视频数据到 latent space，并在时间维度上进行解码来实现高效的视频重建。
专家 Transformer：将文本 embedding 和视频 embedding 相结合，使用 3D-RoPE 作为位置编码，采用专家自适应层归一化处理两个模态的数据，以及使用 3D 全注意力机制来进行时空联合建模。

CogVideoX-5B 与 CogVideoX-2B 详细参数比较如下：

视频模型 # CogVideoX-5B # 智谱 AI

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

StreamDiffusionV2：支持多显卡的实时视频生成系统

StreamDiffusionV2：支持多显卡的实时视频生成系统

视频模型 # StreamDiffusionV2

6个月前

02660

腾讯开源混元视频音效生成模型HunyuanVideo-Foley：端到端TV2A模型，为创作者打造高保真音视频体验

腾讯开源混元视频音效生成模型HunyuanVideo-Foley：端到端TV2A模型，为创作者打造高保真音视频体验

视频模型 # HunyuanVideo-Foley # 混元视频音效生成模型 # 腾讯

7个月前

0970

Code2Video：基于代码智能体的教育视频生成框架

Code2Video：基于代码智能体的教育视频生成框架

视频模型 # Code2Video # 教育视频生成

6个月前

03210

肖像图像动画Hallo系列再次更新！Hallo3框架引入Cogvidex模型，生成的肖像动画动作更自然、画面更逼真

肖像图像动画Hallo系列再次更新！Hallo3框架引入Cogvidex模型，生成的肖像动画动作更自然、画面更逼真

视频模型 # Cogvidex模型 # Hallo3

1年前

02910

暂无评论

none

暂无评论...