作为中国AI厂商中的开源先锋,智谱AI一直致力于推动技术开放与共享。这家清华系初创企业近年来通过与清华大学合作,开源了多个备受关注的AI模型系列,包括大语言模型GLM系列、文生图模型CogView系列以及视频生成模型CogVideoX系列。今年,智谱AI更是将2025年定位为“开源年”,并以实际行动践行这一战略目标。
- GitHub:https://github.com/THUDM/CogView4
- 模型:https://huggingface.co/THUDM/CogView4-6B
- Demo:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
- ComfyUI插件:https://github.com/chflame163/ComfyUI_CogView4_Wrapper
昨天,智谱AI正式开源了业界首个能够生成汉字的开源文生图模型——CogView4。这一新模型在前代基础上进行了多项重大升级,不仅显著提升了中文处理能力,还实现了对汉字字符的直接生成,进一步拓宽了其应用场景。

CogView4的核心亮点
1. 双语支持与汉字生成能力
相比于之前的CogView3,CogView4将T5编码器替换为智谱自研的GLM-4编码器,从而实现了中英双语输入的支持,并赋予模型生成汉字的能力。这使得CogView4能够更好地理解和遵循中文提示词(prompt),尤其是在处理古诗文意境等复杂场景时表现出色。这种能力使其非常适合广告设计、短视频创作等需要创意表达的应用场景。

2. 权威评测中的SOTA表现
CogView4-6B在DPG-Bench(密集提示图基准测试)中取得了综合评分第一的成绩,在开源文生图模型领域达到了最先进水平(SOTA)。这表明模型不仅具备强大的生成能力,还能高效应对复杂的多模态任务。

3. 灵活的输入与输出能力
- 任意长度的提示词: CogView4支持超长、复杂的文本描述输入,平均描述文本长度可达200-300个词元,同时避免了传统固定长度(如512词元)方案带来的冗余问题。
- 任意分辨率图像生成: 借助2D旋转位置编码(RoPE)、内插位置表示和Flow-matching扩散模型,CogView4可以生成任意分辨率的高质量图像,满足不同场景下的需求。
4. 高效的训练流程
为了提升模型性能与训练效率,智谱AI采用了多阶段训练策略:
- 基础分辨率训练: 初步建立模型的基础能力。
- 泛分辨率训练: 引入混合分辨率数据集,增强模型对不同尺寸图像的适应性。
- 高质量数据微调: 使用精心筛选的数据进一步优化生成质量。
- 人类偏好对齐: 调整模型输出以更贴近人类审美标准。
此外,CogView4保留了Share-param DiT架构,针对不同模态引入独立的自适应层归一化,确保模型在多任务间的平衡表现。
模型架构详解
双语能力
- GLM-4编码器: 升级后的编码器支持中英双语输入,彻底解决了此前仅支持英文的局限性。
- 双语图文对训练: 模型基于中英双语图文对进行训练,显著提升了对中文指令的理解能力。
文本处理
- 动态文本长度: 相较于传统的固定长度方案,CogView4采用动态文本长度机制,大幅减少了冗余计算量。当平均描述文本长度为200-300个词元时,相比固定512词元方案可减少约50%的冗余。
- 训练效率提升: 动态文本长度机制使训练效率提高了5%-30%。
灵活图像分辨率生成
- 混合分辨率训练: 支持多种尺寸图像的生成,满足多样化需求。
- 二维旋转位置编码与内插位置表示: 确保模型能够适应不同分辨率的输入与输出。
- Flow-matching扩散模型: 结合参数化线性动态噪声规划,保证生成图像的质量与多样性。
推理要求和模型介绍
- 分辨率: 长宽均需满足
512px
-2048px
之间,需被32
整除, 并保证最大像素数不超过2^21
px。 - 精度: BF16 / FP32 (不支持FP16,会出现溢出导致纯黑图片)
使用 BF16
精度, batchsize=4
进行测试,显存占用如下表所示:
分辨率 | enable_model_cpu_offload OFF | enable_model_cpu_offload ON | enable_model_cpu_offload ON Text Encoder 4bit |
---|---|---|---|
512 * 512 | 33GB | 20GB | 13G |
1280 * 720 | 35GB | 20GB | 13G |
1024 * 1024 | 35GB | 20GB | 13G |
1920 * 1280 | 39GB | 20GB | 14G |
2048 * 2048 | 43GB | 21GB | 14G |
模型对比
模型名称 | CogView4 | CogView3-Plus-3B |
---|---|---|
分辨率 | 512 <= H, W <= 2048 H * W <= 2^{21} H, W \mod 32 = 0 |
|
推理精度 | 仅支持BF16, FP32 | |
编码器 | GLM-4-9B | T5-XXL |
提示词语言 | 中文,English | English |
提示词长度上限 | 1024 Tokens | 224 Tokens |
下载链接 | 🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
未来计划
智谱AI表示,后续还将陆续开源CogView4的相关配套工具,包括:
- ControlNet支持: 提供更多可控生成选项。
- ComfyUI支持: 方便用户通过图形界面操作模型。
- 模型微调工具: 帮助开发者根据具体需求对模型进行定制化调整。
这些工具将进一步降低使用门槛,吸引更多开发者加入到模型的开发与应用中。
相关:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...