智谱开源首个支持汉字生成的开源文生图模型 CogView4

作为中国AI厂商中的开源先锋,智谱AI一直致力于推动技术开放与共享。这家清华系初创企业近年来通过与清华大学合作,开源了多个备受关注的AI模型系列,包括大语言模型GLM系列、文生图模型CogView系列以及视频生成模型CogVideoX系列。今年,智谱AI更是将2025年定位为“开源年”,并以实际行动践行这一战略目标。

昨天,智谱AI正式开源了业界首个能够生成汉字的开源文生图模型——CogView4。这一新模型在前代基础上进行了多项重大升级,不仅显著提升了中文处理能力,还实现了对汉字字符的直接生成,进一步拓宽了其应用场景。

智谱开源首个支持汉字生成的开源文生图模型 CogView4

CogView4的核心亮点

1. 双语支持与汉字生成能力

相比于之前的CogView3,CogView4将T5编码器替换为智谱自研的GLM-4编码器,从而实现了中英双语输入的支持,并赋予模型生成汉字的能力。这使得CogView4能够更好地理解和遵循中文提示词(prompt),尤其是在处理古诗文意境等复杂场景时表现出色。这种能力使其非常适合广告设计、短视频创作等需要创意表达的应用场景。

智谱开源首个支持汉字生成的开源文生图模型 CogView4

2. 权威评测中的SOTA表现

CogView4-6B在DPG-Bench(密集提示图基准测试)中取得了综合评分第一的成绩,在开源文生图模型领域达到了最先进水平(SOTA)。这表明模型不仅具备强大的生成能力,还能高效应对复杂的多模态任务。

智谱开源首个支持汉字生成的开源文生图模型 CogView4

3. 灵活的输入与输出能力

  • 任意长度的提示词: CogView4支持超长、复杂的文本描述输入,平均描述文本长度可达200-300个词元,同时避免了传统固定长度(如512词元)方案带来的冗余问题。
  • 任意分辨率图像生成: 借助2D旋转位置编码(RoPE)、内插位置表示和Flow-matching扩散模型,CogView4可以生成任意分辨率的高质量图像,满足不同场景下的需求。

4. 高效的训练流程

为了提升模型性能与训练效率,智谱AI采用了多阶段训练策略:

  1. 基础分辨率训练: 初步建立模型的基础能力。
  2. 泛分辨率训练: 引入混合分辨率数据集,增强模型对不同尺寸图像的适应性。
  3. 高质量数据微调: 使用精心筛选的数据进一步优化生成质量。
  4. 人类偏好对齐: 调整模型输出以更贴近人类审美标准。

此外,CogView4保留了Share-param DiT架构,针对不同模态引入独立的自适应层归一化,确保模型在多任务间的平衡表现。

模型架构详解

双语能力

  • GLM-4编码器: 升级后的编码器支持中英双语输入,彻底解决了此前仅支持英文的局限性。
  • 双语图文对训练: 模型基于中英双语图文对进行训练,显著提升了对中文指令的理解能力。

文本处理

  • 动态文本长度: 相较于传统的固定长度方案,CogView4采用动态文本长度机制,大幅减少了冗余计算量。当平均描述文本长度为200-300个词元时,相比固定512词元方案可减少约50%的冗余。
  • 训练效率提升: 动态文本长度机制使训练效率提高了5%-30%。

灵活图像分辨率生成

  • 混合分辨率训练: 支持多种尺寸图像的生成,满足多样化需求。
  • 二维旋转位置编码与内插位置表示: 确保模型能够适应不同分辨率的输入与输出。
  • Flow-matching扩散模型: 结合参数化线性动态噪声规划,保证生成图像的质量与多样性。

推理要求和模型介绍

  • 分辨率: 长宽均需满足 512px - 2048px 之间,需被32整除, 并保证最大像素数不超过 2^21 px。
  • 精度: BF16 / FP32 (不支持FP16,会出现溢出导致纯黑图片)

使用 BF16 精度, batchsize=4 进行测试,显存占用如下表所示:

分辨率 enable_model_cpu_offload OFF enable_model_cpu_offload ON enable_model_cpu_offload ON
Text Encoder 4bit
512 * 512 33GB 20GB 13G
1280 * 720 35GB 20GB 13G
1024 * 1024 35GB 20GB 13G
1920 * 1280 39GB 20GB 14G
2048 * 2048 43GB 21GB 14G

模型对比

模型名称 CogView4 CogView3-Plus-3B
分辨率 512 <= H, W <= 2048
H * W <= 2^{21}
H, W \mod 32 = 0
推理精度 仅支持BF16, FP32
编码器 GLM-4-9B T5-XXL
提示词语言 中文,English English
提示词长度上限 1024 Tokens 224 Tokens
下载链接 🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel
🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel

未来计划

智谱AI表示,后续还将陆续开源CogView4的相关配套工具,包括:

  • ControlNet支持: 提供更多可控生成选项。
  • ComfyUI支持: 方便用户通过图形界面操作模型。
  • 模型微调工具: 帮助开发者根据具体需求对模型进行定制化调整。

这些工具将进一步降低使用门槛,吸引更多开发者加入到模型的开发与应用中。

相关:

智谱AI推出图像生成模型 CogView3 以及  CogView-3Plus

智谱AI推出视频生成模型CogVideoX:与“清影”同源,单张 4090 显卡可推理

© 版权声明

相关文章

暂无评论

none
暂无评论...