智谱发布 GLM-4.7-Flash：30B 级 MoE 模型，本地部署首选编码与代理助手

大语言模型2个月前发布小马良

41 0

智谱 AI 正式推出 GLM-4.7-Flash——一款基于 30B 总参数、激活 3B（A3B）的稀疏混合专家（MoE）架构 的大语言模型。它在高性能与高效率之间取得出色平衡，成为本地部署场景下理想的编码助手与智能代理。

模型：http://huggingface.co/zai-org/GLM-4.7-Flash
API：http://docs.z.ai/guides/overview/pricing
Ollama：https://ollama.com/library/glm-4.7-flash

除了代码生成，该模型同样适用于创意写作、多语言翻译、长上下文理解与角色扮演等任务，最大支持 131,072 tokens 上下文长度。

智谱发布 GLM-4.7-Flash：30B 级 MoE 模型，本地部署首选编码与代理助手

性能表现：全面领先

在多项权威基准测试中，GLM-4.7-Flash 表现亮眼，尤其在工程与代理任务上大幅超越同类模型：

基准	GLM-4.7-Flash	Qwen3-30B-A3B-Thinking	GPT-OSS-20B
AIME 25（数学）	91.6	85.0	91.7
GPQA（知识推理）	75.2	73.4	71.5
SWE-bench Verified（真实代码修复）	59.2	22.0	34.0
τ²-Bench（多轮代理）	79.5	49.0	47.7
BrowseComp（浏览器自动化）	42.8	2.29	28.3

在 SWE-bench 和 τ²-Bench 等复杂任务中，GLM-4.7-Flash 的得分几乎是竞品的 2–3 倍，展现出强大的工具调用与任务规划能力。

部署与使用

本地部署支持

支持主流推理框架：vLLM、SGLang（需使用主分支）
官方提供详细部署指南（见 GitHub 仓库）

云端 API

GLM-4.7-Flash：免费使用（1 并发）
GLM-4.7-FlashX：高速高并发版本，按量计费
文档地址：https://docs.z.ai

推理参数建议

场景	Temperature	Top-p	Max Tokens
通用任务	1.0	0.95	131072
代码任务（SWE-bench）	0.7	1.0	16384
多轮代理（τ²-Bench）	0（确定性）	-	16384

对于代理类任务，建议启用 Preserved Thinking 模式，以保持推理链一致性。

适用场景

开发者：本地运行代码补全、调试、测试生成
研究者：构建可复现的智能体实验环境
创作者：长文本生成、多语言内容创作
企业用户：私有化部署，保障数据安全

大语言模型 # GLM-4.7-Flash # 智谱

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

昆仑万维开源多模态思维链推理模型 Skywork R1V

昆仑万维开源多模态思维链推理模型 Skywork R1V

大语言模型 # Skywork R1V # 多模态思维链推理模型 # 昆仑万维

12个月前

02080

Qodo推出代码嵌入模型Qodo-Embed-1：专为软件开发领域设计，在优化自然语言到代码和代码到代码的检索任务

Qodo推出代码嵌入模型Qodo-Embed-1：专为软件开发领域设计，在优化自然语言到代码和代码到代码的检索任务

大语言模型 # Qodo # Qodo-Embed-1 # Qodo-Embed-1-1.5B

1年前

05540

智谱开源首个支持汉字生成的开源文生图模型 CogView4

智谱开源首个支持汉字生成的开源文生图模型 CogView4

图像模型 # CogView4 # 文生图模型 # 智谱

1年前

03560

智谱 GLM Coding Plan 致歉：承认“规则不透明、灰度太慢、升级粗糙”三大失误，老用户可全额退款

智谱 GLM Coding Plan 致歉：承认“规则不透明、灰度太慢、升级粗糙”三大失误，老用户可全额退款

早报 # GLM Coding Plan # 智谱

3周前

0320

暂无评论

none

暂无评论...