阿里Qwen团队发布 Qwen3-235B-A22B-Thinking-2507：深度推理能力再升级

大语言模型8个月前发布小马良

327 0

在持续三个月的优化后，阿里Qwen团队正式推出 Qwen3-235B-A22B-Thinking-2507 版本。该模型在逻辑推理、数学、科学、编程及学术任务上的表现显著提升，进一步巩固了其在开源思维模型中的领先地位。

模型：HuggingFace | ModelScope
Demo：https://chat.qwen.ai

此次更新聚焦于“深度思考”能力的增强，特别适用于需要复杂推理和长链逻辑的高难度任务。

核心升级：更强的推理，更广的覆盖

与前代相比，Qwen3-235B-A22B-Thinking-2507 在多个关键维度实现突破：

✅ 推理能力跃升：在数学、科学、编程等专业领域，性能达到开源模型中的最先进水平。
✅ 通用能力提升：指令遵循、工具调用、文本生成及与人类偏好的对齐能力均有显著进步。
✅ 长上下文支持增强：原生支持 262,144 令牌的上下文长度，对长文档、复杂代码库的理解更加深入。

值得注意的是，此版本的“思考长度”有所增加，建议在处理高度复杂的推理任务时优先使用。

模型概览

项目	说明
模型类型	因果语言模型
训练阶段	预训练 + 后训练
总参数量	2350亿（235B）
激活参数量	220亿（22B，MoE架构）
非嵌入参数	2340亿（234B）
层数	94
注意力头数（GQA）	Q: 64, KV: 4
专家数量	128（激活8个）
上下文长度	262,144（原生支持）

注意：该模型仅支持思考模式。默认聊天模板已自动包含 <think> 标签，因此输出中仅出现 </think> 而无起始标签，属于正常行为。

性能表现：多项任务超越主流模型

在多个权威基准测试中，Qwen3-235B-A22B-Thinking-2507 展现出强劲竞争力，尤其在推理与编码领域表现突出。

推理任务

基准	Qwen3-235B-A22B-Thinking-2507	Qwen3-235B-A22B
AIME25（数学竞赛）	92.3	81.5
HMMT25（数学竞赛）	83.9	62.5
LiveBench 20241125	78.4	77.1
HLE（逻辑推理）	18.2#	11.8#

# 为非多模态模型在文本子集上的评估结果。

编码能力

基准	Qwen3-235B-A22B-Thinking-2507	Qwen3-235B-A22B
LiveCodeBench v6	74.1	55.7
CFEval	2134	2056
OJBench	32.5	25.6

知识与对齐

基准	Qwen3-235B-A22B-Thinking-2507	Qwen3-235B-A22B
MMLU-Pro	84.4	82.8
GPQA（学术知识）	81.1	71.1
SuperGPQA	64.9	60.7
IFEval（指令遵循）	87.8	83.4
Arena-Hard v2	79.7	61.5

* OpenAI 模型部分结果基于高推理努力生成。

代理与多语言

基准	Qwen3-235B-A22B-Thinking-2507	Qwen3-235B-A22B
BFCL-v3（Agent任务）	71.9	70.8
TAU2-Retail	71.9	40.4
MultiIF（多语言推理）	80.6	71.9
PolyMATH（数学多语言）	60.1	54.7

所有高挑战性任务（如数学、编程）使用 81,920 令牌输出长度；其余任务使用 32,768。

最佳实践建议

为充分发挥模型潜力，建议采用以下配置：

1. 采样参数

Temperature=0.6
TopP=0.95
TopK=20
MinP=0
可选：调整 presence_penalty（0-2）以减少重复，但过高可能导致语言混合。

2. 输出长度

一般任务：32,768 令牌
复杂任务（如数学竞赛、编程难题）：81,920 令牌

3. 标准化输出格式

数学题：提示中加入
请逐步推理，并将最终答案放在 \boxed{} 中
选择题：使用 JSON 格式约束输出
"answer": "C"

4. 对话历史管理

在多轮对话中，历史记录应仅保留最终输出，无需包含 <think> 内容。此逻辑已在 Jinja2 聊天模板中实现。若自行实现，需确保遵循此规范。

大语言模型 # Qwen3-235B-A22B-Thinking-2507 # 推理模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

字节跳动Seed项目组推出基于大语言模型（LLM）的自动化定理证明系统 Seed-Prover

字节跳动Seed项目组推出基于大语言模型（LLM）的自动化定理证明系统 Seed-Prover

大语言模型 # Seed-Prover # 字节跳动 # 自动化定理证明

8个月前

01020

法国AI初创企业Mistral发布高效模型 Mistral Small 3：24亿参数的模型特别针对延迟进行了优化

法国AI初创企业Mistral发布高效模型 Mistral Small 3：24亿参数的模型特别针对延迟进行了优化

大语言模型 # Mistral # Mistral Small 3

1年前

02720

Anthropic 发布 Claude Sonnet 4.5：编程能力业界领先，可自主开发生产级应用，定价不变

Anthropic 发布 Claude Sonnet 4.5：编程能力业界领先，可自主开发生产级应用，定价不变

大语言模型 # Anthropic # Claude Sonnet 4.5 # 编程模型

6个月前

01040

Qwen3-Max 发布：阿里通义迄今最强语言模型，已开放 API

Qwen3-Max 发布：阿里通义迄今最强语言模型，已开放 API

大语言模型 # Qwen3-Max

6个月前

04320

暂无评论

none

暂无评论...