智谱发布 GLM-4.7-Flash:30B 级 MoE 模型,本地部署首选编码与代理助手

智谱 AI 正式推出 GLM-4.7-Flash——一款基于 30B 总参数、激活 3B(A3B)的稀疏混合专家(MoE)架构 的大语言模型。它在高性能与高效率之间取得出色平衡,成为本地部署场景下理想的编码助手与智能代理

除了代码生成,该模型同样适用于创意写作、多语言翻译、长上下文理解与角色扮演等任务,最大支持 131,072 tokens 上下文长度。

智谱发布 GLM-4.7-Flash:30B 级 MoE 模型,本地部署首选编码与代理助手

性能表现:全面领先

在多项权威基准测试中,GLM-4.7-Flash 表现亮眼,尤其在工程与代理任务上大幅超越同类模型:

基准GLM-4.7-FlashQwen3-30B-A3B-ThinkingGPT-OSS-20B
AIME 25(数学)91.685.091.7
GPQA(知识推理)75.273.471.5
SWE-bench Verified(真实代码修复)59.222.034.0
τ²-Bench(多轮代理)79.549.047.7
BrowseComp(浏览器自动化)42.82.2928.3

在 SWE-bench 和 τ²-Bench 等复杂任务中,GLM-4.7-Flash 的得分几乎是竞品的 2–3 倍,展现出强大的工具调用与任务规划能力。

部署与使用

本地部署支持

  • 支持主流推理框架:vLLMSGLang(需使用主分支)
  • 官方提供详细部署指南(见 GitHub 仓库)

云端 API

  • GLM-4.7-Flash:免费使用(1 并发)
  • GLM-4.7-FlashX:高速高并发版本,按量计费
    文档地址:https://docs.z.ai

推理参数建议

场景TemperatureTop-pMax Tokens
通用任务1.00.95131072
代码任务(SWE-bench)0.71.016384
多轮代理(τ²-Bench)0(确定性)-16384

对于代理类任务,建议启用 Preserved Thinking 模式,以保持推理链一致性。

适用场景

  • 开发者:本地运行代码补全、调试、测试生成
  • 研究者:构建可复现的智能体实验环境
  • 创作者:长文本生成、多语言内容创作
  • 企业用户:私有化部署,保障数据安全
© 版权声明

相关文章

暂无评论

none
暂无评论...