智谱发布新一代 GLM-4-32B-0414 系列模型:高性能、多功能、易部署

大语言模型3个月前更新 小马良
112 0

4 月 14 日,智谱发布了一则重磅消息:推出新一代 GLM-4-32B-0414 系列模型。这一系列模型凭借 320 亿参数的强大性能,效果直逼 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列,并且支持本地部署,为研究和企业提供了更加灵活的解决方案。

智谱发布新一代 GLM-4-32B-0414 系列模型:高性能、多功能、易部署

系列模型介绍

GLM-4-32B-0414 系列包含四款模型,分别是 GLM-4-32B-Base-0414、GLM-Z1-32B-0414、GLM-Z1-Rumination-32B-0414 和 GLM-Z1-9B-0414。每一款模型都针对不同的应用场景进行了优化,满足多样化的用户需求。

GLM-4-32B-Base-0414:强大的基础模型

GLM-4-32B-Base-0414 是这一系列的核心基础模型。在预训练阶段,该模型使用了 15T 高质量数据,其中包含大量推理类的合成数据,为后续的强化学习扩展奠定了坚实基础。

在后训练阶段,研发团队不仅针对对话场景进行了人类偏好对齐,还通过拒绝采样和强化学习等技术,进一步强化了模型在指令遵循、工程代码、函数调用等方面的表现,提升了模型在智能体任务所需的原子能力。这使得 GLM-4-32B-Base-0414 在工程代码、Artifacts 生成、函数调用、搜索问答及报告等方面都取得了出色的效果,部分 Benchmark 甚至可以媲美更大规模的 GPT-4o 和 DeepSeek-V3-0324(671B)等模型。

智谱发布新一代 GLM-4-32B-0414 系列模型:高性能、多功能、易部署

GLM-Z1-32B-0414:深度推理的强化版

GLM-Z1-32B-0414 是在 GLM-4-32B-Base-0414 的基础上进一步优化的推理模型。它通过冷启动和扩展强化学习,以及在数学、代码和逻辑等任务上的进一步训练,显著提升了数理能力和解决复杂任务的能力。

在训练过程中,团队还引入了基于堆栈排序反馈的通用强化学习,进一步增强了模型的通用能力。这使得 GLM-Z1-32B-0414 在处理复杂的推理任务时表现出色,能够更好地应对多样化的应用场景。

GLM-Z1-Rumination-32B-0414:沉思型深度推理模型

GLM-Z1-Rumination-32B-0414 是一款具有沉思能力的深度推理模型,对标 OpenAI 的 Deep Research。它通过更长时间的深度思考来解决更开放和复杂的问题,例如撰写两个城市 AI 发展的对比情况以及未来发展规划。

该模型结合搜索工具处理复杂任务,并通过多种规则型奖励来指导和扩展端到端强化学习训练。这种设计使得 GLM-Z1-Rumination-32B-0414 在处理复杂任务时更具优势,能够提供更全面、更深入的解决方案。

智谱发布新一代 GLM-4-32B-0414 系列模型:高性能、多功能、易部署

GLM-Z1-9B-0414:开源小尺寸模型

GLM-Z1-9B-0414 是一个开源的 9B 小尺寸模型,尽管参数量较小,但在数学推理和通用任务中依然展现出极为优秀的能力。其整体表现已处于同尺寸开源模型中的领先水平,为资源有限的研究团队和中小企业提供了高性能的 AI 选择。

智谱发布新一代 GLM-4-32B-0414 系列模型:高性能、多功能、易部署

测试结果:卓越的性能表现

GLM-4 系列在多项基准测试中表现优异。例如,在 IFEval 指令遵循测试中得分 87.6;在 TAU-Bench 任务自动化测试中,零售场景得分 68.7,航空场景得分 51.2;在 SimpleQA 搜索增强问答测试中得分 88.1。此外,在代码修复方面,GLM-4 在 SWE-bench 测试中的成功率达 33.8%。

模型IFEvalBFCL-v3 (Overall)BFCL-v3 (MultiTurn)TAU-Bench (Retail)TAU-Bench (Airline)SimpleQAHotpotQA
Qwen2.5-Max85.650.930.558.322.079.052.8
GPT-4o-112081.969.641.062.846.082.863.9
DeepSeek-V3-032483.466.235.860.732.482.654.6
DeepSeek-R184.357.512.433.037.383.963.1
GLM-4-32B-041487.669.641.568.751.288.163.8

采用 MIT 许可的 GLM-4 系列降低了计算成本,为研究和企业提供了高性能的 AI 解决方案。无论是基础模型的广泛适用性,还是深度推理模型的复杂任务处理能力,GLM-4 系列都展现出了强大的竞争力。

模型框架SWE-bench VerifiedSWE-bench Verified mini
GLM-4-32B-0414Moatless33.838.0
GLM-4-32B-0414Agentless30.734.0
GLM-4-32B-0414OpenHands27.228.0
© 版权声明

相关文章

暂无评论

none
暂无评论...