A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

417 0

A-M-team推出了AM-Thinking-v1，一款基于Qwen 2.5-32B-Base构建的32B密集语言模型，专注于提升推理能力。在推理基准测试中，AM-Thinking-v1表现出色，可媲美更大的MoE模型（如DeepSeek-R1、Qwen3-235B-A22B、Seed1.5-Thinking）以及更大的密集模型（如Nemotron-Ultra-253B-v1）。

项目主页：https://a-m-team.github.io/am-thinking-v1
模型：https://huggingface.co/a-m-team/AM-Thinking-v1
GGUF：https://huggingface.co/a-m-team/AM-Thinking-v1-gguf

AM-Thinking-v1 通过精心设计的后训练流程（包括监督微调和强化学习），在数学推理和代码生成等任务上达到了开源模型中的顶尖水平。例如，在 AIME 2024 和 AIME 2025 数学竞赛基准测试中，AM-Thinking-v1 分别取得了 85.3 和 74.4 的高分，在 LiveCodeBench 编程基准测试中也达到了 70.3 的成绩，展现出强大的推理能力。

主要功能

AM-Thinking-v1 的主要功能包括：

数学推理：能够解决复杂的数学问题，如 AIME 竞赛中的难题。
代码生成：能够生成高质量的代码，通过 LiveCodeBench 等基准测试。
科学推理：处理涉及自然科学和逻辑推理的问题。
指令遵循：准确执行给定的指令。
通用对话：支持开放性问题、常识和日常推理，支持单轮和多轮对话。

为什么32B推理模型很重要？

大型混合专家（MoE）模型如DeepSeek-R1或Qwen3-235B-A22B在排行榜上占据主导地位，但它们需要高性能GPU集群。许多团队只需要能在单张显卡上运行的最佳密集模型。AM-Thinking-v1填补了这一空白，且完全基于开源组件：

在AIME’24/’25和LiveCodeBench上超越DeepSeek-R1，接近Qwen3-235B-A22B，尽管参数量仅为其1/7。
基于公开可用的Qwen 2.5-32B-Base以及RL训练查询构建。
通过精心设计的后训练流程（SFT + 双阶段RL），从32B密集模型中榨取旗舰级推理能力。
可在单张A100-80GB上部署，延迟确定，无MoE路由开销。

🔧 后训练流程

为实现其强大的推理能力，AM-Thinking-v1经历了精心设计的后训练流程。以下是将其从基础模型转变为高性能推理模型的关键阶段：

步骤1 – 冷启动SFT
我们以开源的Qwen 2.5-32B-Base为基础，在数学、代码和开放域聊天的混合训练数据集上进行广泛的监督微调（SFT）。这赋予模型“先思考后回答”的行为模式，并为其提供初步的推理能力。

步骤2 – 通关率感知数据筛选
在进行强化学习（RL）之前，对SFT模型在每个数学和代码相关训练查询上进行评估，记录通关率。仅保留0 < 通关率 < 1的问题，剔除模型已完全掌握或完全失败的问题，集中学习真正有信息价值的内容。

步骤3 – 强化学习
我们采用双阶段GRPO方案：

阶段1：仅在数学和代码查询上训练。
阶段2：在第一阶段收敛后，移除模型100%正确回答的查询，并调整关键超参数，如最大生成长度和学习率。

测试结果

AM-Thinking-v1 在多个基准测试中表现出色：

AIME 2024 和 AIME 2025：
- 在 AIME 2024 上，AM-Thinking-v1 的分数为 85.3，超过了 DeepSeek-R1（79.8）和 Qwen3-32B（81.4）。
- 在 AIME 2025 上，AM-Thinking-v1 的分数为 74.4，接近 Qwen3-235B-A22B（81.5）。
LiveCodeBench：
- 在 LiveCodeBench 上，AM-Thinking-v1 的分数为 70.3，显著高于 DeepSeek-R1（64.3）和 Qwen3-32B（65.7）。
Arena-Hard：
- 在 Arena-Hard 上，AM-Thinking-v1 的分数为 92.5，与 OpenAI-o1（92.1）和 o3-mini（89.0）相当，但低于 Qwen3-235B-A22B（95.6）。