阿里Qwen团队推出 Qwen3-30B-A3B-Instruct-2507：更强、更准、更懂你

大语言模型8个月前发布小马良

848 0

阿里Qwen团队发布 Qwen3-30B-A3B-Instruct-2507 ——Qwen3 系列中针对非思考模式优化的新一代指令微调模型。

Qwen Chat：https://chat.qwen.ai/?model=Qwen3-30B-A3B-2507
Hugging Face：Qwen3-30B-A3B-Instruct-2507 | Qwen3-30B-A3B-Instruct-2507-FP8
魔塔：Qwen3-30B-A3B-Instruct-2507 | Qwen3-30B-A3B-Instruct-2507-FP8

该版本在通用能力、多语言覆盖、长上下文理解及用户偏好对齐方面实现显著提升，专为需要高效、稳定响应的生产级应用设计。

阿里Qwen团队推出 Qwen3-30B-A3B-Instruct-2507：更强、更准、更懂你

⚠️ 注意：此模型仅支持 非思考模式（Non-Thinking Mode），输出中不会生成 <think> 块，也无需再显式设置 enable_thinking=False。

为什么需要这个更新？

在实际应用场景中，许多任务并不需要“边想边答”的推理过程，反而更关注响应速度、稳定性与指令遵循能力。

Qwen3-30B-A3B-Instruct-2507 正是为此而生：它在保持 MoE 架构优势的同时，专注于提升 指令执行质量 和 交互响应效率，适用于客服、内容生成、代码辅助、企业知识问答等高频、低延迟场景。

核心改进一览

✅ 通用能力全面提升

在逻辑推理、数学、科学、编码、文本理解等核心维度表现更强：

MMLU-Pro：从 69.1 → 78.4
GPQA（科学难题）：从 54.8 → 70.4
AIME25（数学竞赛）：从 21.6 → 61.3
ZebraLogic（逻辑推理）：从 33.2 → 90.0

尤其在数学与逻辑类任务上，性能接近顶级闭源模型，显著拉近与大参数模型的差距。

✅ 多语言长尾知识增强

相比前代，新增覆盖多种语言中的低频知识点，尤其在小语种专业术语、文化背景相关内容上表现更稳健。

MMLU-ProX（多语言知识）：65.1 → 72.0
PolyMATH（多语言数学）：23.3 → 43.1

适用于跨国业务、本地化内容生成等场景。

✅ 更符合用户主观偏好

在开放式任务中，生成内容更具帮助性、结构更清晰、语言更自然：

创意写作 v3：68.1 → 86.0
WritingBench：72.2 → 85.5
Arena-Hard v2（人类偏好评估胜率）：24.8 → 69.0

这意味着模型不仅能“答得对”，还能“答得更好”。

✅ 长上下文能力强化

原生支持 262,144 令牌上下文长度（约256K），并在实际测试中展现出更强的长文档理解与信息提取能力。

无论是处理整本技术手册、法律合同，还是跨章节分析研究论文，模型都能保持上下文连贯性。

模型架构概览

项目	参数
类型	因果语言模型（Decoder-only）
训练阶段	预训练 + 指令后训练
总参数量	30.5B
激活参数量	3.3B（MoE 架构）
层数	48
注意力头数（GQA）	Q: 32, KV: 4
专家总数	128
激活专家数	8
上下文长度	262,144（原生支持）

采用 MoE（Mixture of Experts）架构，在控制推理成本的同时扩展模型容量。

性能对比：与主流模型同场竞技

以下为关键基准测试得分（越高越好），展示 Qwen3-30B-A3B-Instruct-2507 的综合竞争力：

类别	测试集	Deepseek-V3	GPT-4o	Gemini Flash	Qwen3-235B	旧版 Qwen3-30B	本版
知识	MMLU-Pro	81.2	79.8	81.1	75.2	69.1	78.4
	GPQA	68.4	66.9	78.3	62.9	54.8	70.4
推理	AIME25	46.6	26.7	61.6	24.7	21.6	61.3
	ZebraLogic	83.4	52.6	57.9	37.7	33.2	90.0
编码	LiveCodeBench	45.2	35.8	40.1	32.9	29.0	43.2
	MultiPL-E	82.2	82.7	77.7	79.3	74.6	83.8
对齐	Arena-Hard v2	45.6	61.9	58.3	52.0	24.8	69.0
	创意写作 v3	81.6	84.9	84.6	80.4	68.1	86.0

注：Arena-Hard 使用 GPT-4 评估胜率；部分 GPT-4o 结果基于 20241120 版本生成。

在多项指标上，该模型已接近甚至超越部分更大规模模型，展现出优异的性价比与实用性。

推荐使用配置（Best Practices）

为充分发挥模型潜力，建议采用以下设置：

1. 采样参数

temperature: 0.7
top_p: 0.8
top_k: 20
min_p: 0.0
presence_penalty: 0.5~1.5（推荐0.8，减少重复）

presence_penalty 可有效缓解输出重复问题，但过高可能导致语言混合或性能轻微下降。

2. 输出长度

建议设置最大输出长度为 16,384 tokens，足以应对大多数复杂任务，如长篇报告生成、多步骤代码实现等。

3. 标准化提示工程

为提升评估一致性与自动化处理效率，建议在提示中加入格式约束：

数学题：
“请逐步推理，并将最终答案放在 \boxed{} 内。”
选择题：
“请仅在 answer 字段中返回选项字母，例如：{ "answer": "C" }”

此类结构化输出便于后续解析与集成。

大语言模型 # Qwen3-30B-A3B-Instruct-2507 # Qwen团队

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Nanbeige4.1-3B：在保持小参数规模的同时，实现强大推理、偏好对齐与高效智能体能力

Nanbeige4.1-3B：在保持小参数规模的同时，实现强大推理、偏好对齐与高效智能体能力

大语言模型 # Nanbeige4.1-3B # 推理模型

1个月前

0420

Salesforce 推出 CoAct-1：能写代码的智能体，让自动化迈入新阶段

Salesforce 推出 CoAct-1：能写代码的智能体，让自动化迈入新阶段

大语言模型 # CoAct-1 # 智能体

7个月前

01580

南加州大学推出一系列紧凑型推理模型Tina：利用LoRA技术实现低成本强化学习

南加州大学推出一系列紧凑型推理模型Tina：利用LoRA技术实现低成本强化学习

大语言模型 # Tina # v # 推理模型

11个月前

03770

腾讯发布混元 2.0 大模型：406B MoE 架构，256K 上下文，推理效率国内领先

腾讯发布混元 2.0 大模型：406B MoE 架构，256K 上下文，推理效率国内领先

大语言模型 # 混元 2.0 大模型 # 腾讯

3个月前

0450

暂无评论

none

暂无评论...