阿里Qwen团队发布 Qwen3-30B-A3B-Instruct-2507 ——Qwen3 系列中针对非思考模式优化的新一代指令微调模型。
- Qwen Chat:https://chat.qwen.ai/?model=Qwen3-30B-A3B-2507
- Hugging Face:Qwen3-30B-A3B-Instruct-2507 | Qwen3-30B-A3B-Instruct-2507-FP8
- 魔塔:Qwen3-30B-A3B-Instruct-2507 | Qwen3-30B-A3B-Instruct-2507-FP8
该版本在通用能力、多语言覆盖、长上下文理解及用户偏好对齐方面实现显著提升,专为需要高效、稳定响应的生产级应用设计。

⚠️ 注意:此模型仅支持 非思考模式(Non-Thinking Mode),输出中不会生成
<think>块,也无需再显式设置enable_thinking=False。
为什么需要这个更新?
在实际应用场景中,许多任务并不需要“边想边答”的推理过程,反而更关注响应速度、稳定性与指令遵循能力。
Qwen3-30B-A3B-Instruct-2507 正是为此而生:它在保持 MoE 架构优势的同时,专注于提升 指令执行质量 和 交互响应效率,适用于客服、内容生成、代码辅助、企业知识问答等高频、低延迟场景。
核心改进一览
✅ 通用能力全面提升
在逻辑推理、数学、科学、编码、文本理解等核心维度表现更强:
- MMLU-Pro:从 69.1 → 78.4
- GPQA(科学难题):从 54.8 → 70.4
- AIME25(数学竞赛):从 21.6 → 61.3
- ZebraLogic(逻辑推理):从 33.2 → 90.0
尤其在数学与逻辑类任务上,性能接近顶级闭源模型,显著拉近与大参数模型的差距。
✅ 多语言长尾知识增强
相比前代,新增覆盖多种语言中的低频知识点,尤其在小语种专业术语、文化背景相关内容上表现更稳健。
- MMLU-ProX(多语言知识):65.1 → 72.0
- PolyMATH(多语言数学):23.3 → 43.1
适用于跨国业务、本地化内容生成等场景。
✅ 更符合用户主观偏好
在开放式任务中,生成内容更具帮助性、结构更清晰、语言更自然:
- 创意写作 v3:68.1 → 86.0
- WritingBench:72.2 → 85.5
- Arena-Hard v2(人类偏好评估胜率):24.8 → 69.0
这意味着模型不仅能“答得对”,还能“答得更好”。
✅ 长上下文能力强化
原生支持 262,144 令牌上下文长度(约256K),并在实际测试中展现出更强的长文档理解与信息提取能力。
无论是处理整本技术手册、法律合同,还是跨章节分析研究论文,模型都能保持上下文连贯性。
模型架构概览
| 项目 | 参数 |
|---|---|
| 类型 | 因果语言模型(Decoder-only) |
| 训练阶段 | 预训练 + 指令后训练 |
| 总参数量 | 30.5B |
| 激活参数量 | 3.3B(MoE 架构) |
| 层数 | 48 |
| 注意力头数(GQA) | Q: 32, KV: 4 |
| 专家总数 | 128 |
| 激活专家数 | 8 |
| 上下文长度 | 262,144(原生支持) |
采用 MoE(Mixture of Experts)架构,在控制推理成本的同时扩展模型容量。
性能对比:与主流模型同场竞技
以下为关键基准测试得分(越高越好),展示 Qwen3-30B-A3B-Instruct-2507 的综合竞争力:
| 类别 | 测试集 | Deepseek-V3 | GPT-4o | Gemini Flash | Qwen3-235B | 旧版 Qwen3-30B | 本版 |
|---|---|---|---|---|---|---|---|
| 知识 | MMLU-Pro | 81.2 | 79.8 | 81.1 | 75.2 | 69.1 | 78.4 |
| GPQA | 68.4 | 66.9 | 78.3 | 62.9 | 54.8 | 70.4 | |
| 推理 | AIME25 | 46.6 | 26.7 | 61.6 | 24.7 | 21.6 | 61.3 |
| ZebraLogic | 83.4 | 52.6 | 57.9 | 37.7 | 33.2 | 90.0 | |
| 编码 | LiveCodeBench | 45.2 | 35.8 | 40.1 | 32.9 | 29.0 | 43.2 |
| MultiPL-E | 82.2 | 82.7 | 77.7 | 79.3 | 74.6 | 83.8 | |
| 对齐 | Arena-Hard v2 | 45.6 | 61.9 | 58.3 | 52.0 | 24.8 | 69.0 |
| 创意写作 v3 | 81.6 | 84.9 | 84.6 | 80.4 | 68.1 | 86.0 |
注:Arena-Hard 使用 GPT-4 评估胜率;部分 GPT-4o 结果基于 20241120 版本生成。
在多项指标上,该模型已接近甚至超越部分更大规模模型,展现出优异的性价比与实用性。
推荐使用配置(Best Practices)
为充分发挥模型潜力,建议采用以下设置:
1. 采样参数
temperature: 0.7
top_p: 0.8
top_k: 20
min_p: 0.0
presence_penalty: 0.5~1.5(推荐0.8,减少重复)
presence_penalty 可有效缓解输出重复问题,但过高可能导致语言混合或性能轻微下降。
2. 输出长度
建议设置最大输出长度为 16,384 tokens,足以应对大多数复杂任务,如长篇报告生成、多步骤代码实现等。
3. 标准化提示工程
为提升评估一致性与自动化处理效率,建议在提示中加入格式约束:
- 数学题:
“请逐步推理,并将最终答案放在 \boxed{} 内。”
- 选择题:
“请仅在 answer 字段中返回选项字母,例如:{ "answer": "C" }”
此类结构化输出便于后续解析与集成。















