智谱开源首个支持汉字生成的开源文生图模型 CogView4

360 0

作为中国AI厂商中的开源先锋，智谱AI一直致力于推动技术开放与共享。这家清华系初创企业近年来通过与清华大学合作，开源了多个备受关注的AI模型系列，包括大语言模型GLM系列、文生图模型CogView系列以及视频生成模型CogVideoX系列。今年，智谱AI更是将2025年定位为“开源年”，并以实际行动践行这一战略目标。

GitHub：https://github.com/THUDM/CogView4
模型：https://huggingface.co/THUDM/CogView4-6B
Demo：https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
ComfyUI插件：https://github.com/chflame163/ComfyUI_CogView4_Wrapper

昨天，智谱AI正式开源了业界首个能够生成汉字的开源文生图模型——CogView4。这一新模型在前代基础上进行了多项重大升级，不仅显著提升了中文处理能力，还实现了对汉字字符的直接生成，进一步拓宽了其应用场景。

CogView4的核心亮点

1. 双语支持与汉字生成能力

相比于之前的CogView3，CogView4将T5编码器替换为智谱自研的GLM-4编码器，从而实现了中英双语输入的支持，并赋予模型生成汉字的能力。这使得CogView4能够更好地理解和遵循中文提示词（prompt），尤其是在处理古诗文意境等复杂场景时表现出色。这种能力使其非常适合广告设计、短视频创作等需要创意表达的应用场景。

2. 权威评测中的SOTA表现

CogView4-6B在DPG-Bench（密集提示图基准测试）中取得了综合评分第一的成绩，在开源文生图模型领域达到了最先进水平（SOTA）。这表明模型不仅具备强大的生成能力，还能高效应对复杂的多模态任务。

3. 灵活的输入与输出能力

任意长度的提示词: CogView4支持超长、复杂的文本描述输入，平均描述文本长度可达200-300个词元，同时避免了传统固定长度（如512词元）方案带来的冗余问题。
任意分辨率图像生成: 借助2D旋转位置编码（RoPE）、内插位置表示和Flow-matching扩散模型，CogView4可以生成任意分辨率的高质量图像，满足不同场景下的需求。

4. 高效的训练流程

为了提升模型性能与训练效率，智谱AI采用了多阶段训练策略：

基础分辨率训练: 初步建立模型的基础能力。
泛分辨率训练: 引入混合分辨率数据集，增强模型对不同尺寸图像的适应性。
高质量数据微调: 使用精心筛选的数据进一步优化生成质量。
人类偏好对齐: 调整模型输出以更贴近人类审美标准。

此外，CogView4保留了Share-param DiT架构，针对不同模态引入独立的自适应层归一化，确保模型在多任务间的平衡表现。

模型架构详解

双语能力

GLM-4编码器: 升级后的编码器支持中英双语输入，彻底解决了此前仅支持英文的局限性。
双语图文对训练: 模型基于中英双语图文对进行训练，显著提升了对中文指令的理解能力。

文本处理

动态文本长度: 相较于传统的固定长度方案，CogView4采用动态文本长度机制，大幅减少了冗余计算量。当平均描述文本长度为200-300个词元时，相比固定512词元方案可减少约50%的冗余。
训练效率提升: 动态文本长度机制使训练效率提高了5%-30%。

灵活图像分辨率生成

混合分辨率训练: 支持多种尺寸图像的生成，满足多样化需求。
二维旋转位置编码与内插位置表示: 确保模型能够适应不同分辨率的输入与输出。
Flow-matching扩散模型: 结合参数化线性动态噪声规划，保证生成图像的质量与多样性。

推理要求和模型介绍

分辨率: 长宽均需满足 512px - 2048px 之间，需被32整除, 并保证最大像素数不超过 2^21 px。
精度: BF16 / FP32 (不支持FP16，会出现溢出导致纯黑图片)

使用 BF16 精度, batchsize=4 进行测试，显存占用如下表所示：

分辨率	enable_model_cpu_offload OFF	enable_model_cpu_offload ON	enable_model_cpu_offload ON Text Encoder 4bit
512 * 512	33GB	20GB	13G
1280 * 720	35GB	20GB	13G
1024 * 1024	35GB	20GB	13G
1920 * 1280	39GB	20GB	14G
2048 * 2048	43GB	21GB	14G

模型对比

模型名称	CogView4	CogView3-Plus-3B
分辨率	512 <= H, W <= 2048 H * W <= 2^{21} H, W \mod 32 = 0
推理精度	仅支持BF16, FP32
编码器	GLM-4-9B	T5-XXL
提示词语言	中文，English	English
提示词长度上限	1024 Tokens	224 Tokens
下载链接	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel