智谱发布新一代 GLM-4-32B-0414 系列模型：高性能、多功能、易部署

306 0

4 月 14 日，智谱发布了一则重磅消息：推出新一代 GLM-4-32B-0414 系列模型。这一系列模型凭借 320 亿参数的强大性能，效果直逼 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列，并且支持本地部署，为研究和企业提供了更加灵活的解决方案。

系列模型介绍

GLM-4-32B-0414 系列包含四款模型，分别是 GLM-4-32B-Base-0414、GLM-Z1-32B-0414、GLM-Z1-Rumination-32B-0414 和 GLM-Z1-9B-0414。每一款模型都针对不同的应用场景进行了优化，满足多样化的用户需求。

GitHub：https://github.com/THUDM/GLM-4/blob/main/README_zh.md
模型：https://huggingface.co/collections/THUDM/glm-4-0414-67f3cbcb34dd9d252707cb2e

GLM-4-32B-Base-0414：强大的基础模型

GLM-4-32B-Base-0414 是这一系列的核心基础模型。在预训练阶段，该模型使用了 15T 高质量数据，其中包含大量推理类的合成数据，为后续的强化学习扩展奠定了坚实基础。

在后训练阶段，研发团队不仅针对对话场景进行了人类偏好对齐，还通过拒绝采样和强化学习等技术，进一步强化了模型在指令遵循、工程代码、函数调用等方面的表现，提升了模型在智能体任务所需的原子能力。这使得 GLM-4-32B-Base-0414 在工程代码、Artifacts 生成、函数调用、搜索问答及报告等方面都取得了出色的效果，部分 Benchmark 甚至可以媲美更大规模的 GPT-4o 和 DeepSeek-V3-0324（671B）等模型。

GLM-Z1-32B-0414：深度推理的强化版

GLM-Z1-32B-0414 是在 GLM-4-32B-Base-0414 的基础上进一步优化的推理模型。它通过冷启动和扩展强化学习，以及在数学、代码和逻辑等任务上的进一步训练，显著提升了数理能力和解决复杂任务的能力。

在训练过程中，团队还引入了基于堆栈排序反馈的通用强化学习，进一步增强了模型的通用能力。这使得 GLM-Z1-32B-0414 在处理复杂的推理任务时表现出色，能够更好地应对多样化的应用场景。

GLM-Z1-Rumination-32B-0414：沉思型深度推理模型

GLM-Z1-Rumination-32B-0414 是一款具有沉思能力的深度推理模型，对标 OpenAI 的 Deep Research。它通过更长时间的深度思考来解决更开放和复杂的问题，例如撰写两个城市 AI 发展的对比情况以及未来发展规划。

该模型结合搜索工具处理复杂任务，并通过多种规则型奖励来指导和扩展端到端强化学习训练。这种设计使得 GLM-Z1-Rumination-32B-0414 在处理复杂任务时更具优势，能够提供更全面、更深入的解决方案。

GLM-Z1-9B-0414：开源小尺寸模型

GLM-Z1-9B-0414 是一个开源的 9B 小尺寸模型，尽管参数量较小，但在数学推理和通用任务中依然展现出极为优秀的能力。其整体表现已处于同尺寸开源模型中的领先水平，为资源有限的研究团队和中小企业提供了高性能的 AI 选择。

测试结果：卓越的性能表现

GLM-4 系列在多项基准测试中表现优异。例如，在 IFEval 指令遵循测试中得分 87.6；在 TAU-Bench 任务自动化测试中，零售场景得分 68.7，航空场景得分 51.2；在 SimpleQA 搜索增强问答测试中得分 88.1。此外，在代码修复方面，GLM-4 在 SWE-bench 测试中的成功率达 33.8%。

模型	IFEval	BFCL-v3 (Overall)	BFCL-v3 (MultiTurn)	TAU-Bench (Retail)	TAU-Bench (Airline)	SimpleQA	HotpotQA
Qwen2.5-Max	85.6	50.9	30.5	58.3	22.0	79.0	52.8
GPT-4o-1120	81.9	69.6	41.0	62.8	46.0	82.8	63.9
DeepSeek-V3-0324	83.4	66.2	35.8	60.7	32.4	82.6	54.6
DeepSeek-R1	84.3	57.5	12.4	33.0	37.3	83.9	63.1
GLM-4-32B-0414	87.6	69.6	41.5	68.7	51.2	88.1	63.8