阿里Qwen团队推出 Qwen3-30B-A3B-Instruct-2507:更强、更准、更懂你

大语言模型4个月前发布 小马良
760 0

阿里Qwen团队发布 Qwen3-30B-A3B-Instruct-2507 ——Qwen3 系列中针对非思考模式优化的新一代指令微调模型。

该版本在通用能力、多语言覆盖、长上下文理解及用户偏好对齐方面实现显著提升,专为需要高效、稳定响应的生产级应用设计。

阿里Qwen团队推出 Qwen3-30B-A3B-Instruct-2507:更强、更准、更懂你

⚠️ 注意:此模型仅支持 非思考模式(Non-Thinking Mode),输出中不会生成 <think> 块,也无需再显式设置 enable_thinking=False

为什么需要这个更新?

在实际应用场景中,许多任务并不需要“边想边答”的推理过程,反而更关注响应速度、稳定性与指令遵循能力。

Qwen3-30B-A3B-Instruct-2507 正是为此而生:它在保持 MoE 架构优势的同时,专注于提升 指令执行质量 和 交互响应效率,适用于客服、内容生成、代码辅助、企业知识问答等高频、低延迟场景。

核心改进一览

✅ 通用能力全面提升

在逻辑推理、数学、科学、编码、文本理解等核心维度表现更强:

  • MMLU-Pro:从 69.1 → 78.4
  • GPQA(科学难题):从 54.8 → 70.4
  • AIME25(数学竞赛):从 21.6 → 61.3
  • ZebraLogic(逻辑推理):从 33.2 → 90.0

尤其在数学与逻辑类任务上,性能接近顶级闭源模型,显著拉近与大参数模型的差距。

✅ 多语言长尾知识增强

相比前代,新增覆盖多种语言中的低频知识点,尤其在小语种专业术语、文化背景相关内容上表现更稳健。

  • MMLU-ProX(多语言知识):65.1 → 72.0
  • PolyMATH(多语言数学):23.3 → 43.1

适用于跨国业务、本地化内容生成等场景。

✅ 更符合用户主观偏好

在开放式任务中,生成内容更具帮助性、结构更清晰、语言更自然:

  • 创意写作 v3:68.1 → 86.0
  • WritingBench:72.2 → 85.5
  • Arena-Hard v2(人类偏好评估胜率):24.8 → 69.0

这意味着模型不仅能“答得对”,还能“答得更好”。

✅ 长上下文能力强化

原生支持 262,144 令牌上下文长度(约256K),并在实际测试中展现出更强的长文档理解与信息提取能力。

无论是处理整本技术手册、法律合同,还是跨章节分析研究论文,模型都能保持上下文连贯性。

模型架构概览

项目参数
类型因果语言模型(Decoder-only)
训练阶段预训练 + 指令后训练
总参数量30.5B
激活参数量3.3B(MoE 架构)
层数48
注意力头数(GQA)Q: 32, KV: 4
专家总数128
激活专家数8
上下文长度262,144(原生支持)

采用 MoE(Mixture of Experts)架构,在控制推理成本的同时扩展模型容量。

性能对比:与主流模型同场竞技

以下为关键基准测试得分(越高越好),展示 Qwen3-30B-A3B-Instruct-2507 的综合竞争力:

类别测试集Deepseek-V3GPT-4oGemini FlashQwen3-235B旧版 Qwen3-30B本版
知识MMLU-Pro81.279.881.175.269.178.4
GPQA68.466.978.362.954.870.4
推理AIME2546.626.761.624.721.661.3
ZebraLogic83.452.657.937.733.290.0
编码LiveCodeBench45.235.840.132.929.043.2
MultiPL-E82.282.777.779.374.683.8
对齐Arena-Hard v245.661.958.352.024.869.0
创意写作 v381.684.984.680.468.186.0

注:Arena-Hard 使用 GPT-4 评估胜率;部分 GPT-4o 结果基于 20241120 版本生成。

在多项指标上,该模型已接近甚至超越部分更大规模模型,展现出优异的性价比与实用性。

推荐使用配置(Best Practices)

为充分发挥模型潜力,建议采用以下设置:

1. 采样参数

temperature: 0.7
top_p: 0.8
top_k: 20
min_p: 0.0
presence_penalty: 0.5~1.5(推荐0.8,减少重复)

presence_penalty 可有效缓解输出重复问题,但过高可能导致语言混合或性能轻微下降。

2. 输出长度

建议设置最大输出长度为 16,384 tokens,足以应对大多数复杂任务,如长篇报告生成、多步骤代码实现等。

3. 标准化提示工程

为提升评估一致性与自动化处理效率,建议在提示中加入格式约束:

  • 数学题

    “请逐步推理,并将最终答案放在 \boxed{} 内。”

  • 选择题

    “请仅在 answer 字段中返回选项字母,例如:{ "answer": "C" }”

此类结构化输出便于后续解析与集成。

© 版权声明

相关文章

暂无评论

none
暂无评论...