智谱技术团队对于旗下开源视频生成模型CogVideoX进行了升级,今天释出了CogVideoX1.5-5B 系列模型,相比于原有模型,CogVideoX v1.5 将包含 5/10 秒、768P、16 帧的视频生成能力,其中I2V 模型支持任意尺寸比例,大幅提升图生视频质量及复杂语义理解。 (相关:智谱AI推出视频生成模型CogVideoX:与“清影”同源,单张 4090 显卡可推理)
- GitHub:https://github.com/THUDM/CogVideo/blob/main/README_zh.md
- 模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
- 模型集:https://huggingface.co/collections/THUDM/cogvideo-66c08e62f1685a3ade464cce
质量提升
- 图生视频质量:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强。
- 复杂语义理解:模型能够更好地理解和生成复杂的语义内容,使得生成的视频更加自然和逼真。
清影
官方介绍,CogVideoX v1.5 也将同步上线到“清影”平台,并与新推出的 CogSound 音效模型结合,“新清影”将具备如下特性:
-
质量提升:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强。
-
超高清分辨率:支持生成 10s、4K、60 帧超高清视频。
-
可变比例:支持任意比例,从而适应不同的播放场景。
-
多通道输出:同一指令 / 图片可以一次性生成 4 个视频。
-
带声效的 AI 视频:新清影可以生成与画面匹配的音效。
评论0