Nanbeige4.1-3B:在保持小参数规模的同时,实现强大推理、偏好对齐与高效智能体能力

Nanbeige4.1-3B 基于 Nanbeige4-3B-Base 架构构建,是Nanbeige团队此前推出的推理专用模型 Nanbeige4-3B-Thinking-2511 的全面增强迭代版本。该模型通过进一步的监督微调(SFT)、强化学习后训练(RLHF)等多轮优化手段,实现了性能的全方位提升。作为一款在小参数规模(仅3B参数)下具备极强竞争力的开源模型。

Nanbeige4.1-3B 以实际性能打破了“小参数=弱性能”的固有认知,充分证明了紧凑型模型完全可以在保持轻量化部署优势的同时,同步达成强大的推理能力、稳健的偏好对齐效果以及高效可靠的智能体行为,为小模型生态的全能化发展提供了全新范式。

Nanbeige4.1-3B:在保持小参数规模的同时,实现强大推理、偏好对齐与高效智能体能力

具体而言,Nanbeige4.1-3B 在三大核心能力维度展现出极具突破性的优势,每一项均针对小模型的传统短板进行了针对性优化,具体细节如下:

核心优势详解

一、强大推理能力:单次前向传播,搞定复杂多步骤问题

Nanbeige4.1-3B 最突出的提升的之一,是其具备的连贯且深度的推理能力——该模型能够在单次前向传播过程中,完成持续、逻辑严密的连贯推理,无需额外的多轮调用或外挂工具辅助,即可有效拆解并解决各类复杂的多步骤问题。这一特性使其在一系列高难度挑战性基准任务中表现亮眼,尤其是在 LiveCodeBench-Pro(编程推理)、IMO-Answer-Bench(数学竞赛)、AIME 2026 I(高阶数学推理)等对推理深度、逻辑连贯性要求极高的任务上,模型均能稳定、可靠地输出正确的最终答案,其推理稳定性与准确性可与参数规模远高于自身的模型相媲美,甚至实现超越。

二、稳健偏好对齐:越级表现,超越更大规模模型

偏好对齐是衡量模型实用性的核心指标之一,Nanbeige4.1-3B 在此维度实现了扎实且稳定的性能突破。通过优化的对齐训练策略,该模型能够精准捕捉人类的偏好需求,输出更贴合人类意图、更有用、更安全的回答。在 Arena-Hard-v2、Multi-Challenge 等两大权威偏好对齐基准上,Nanbeige4.1-3B 的表现尤为突出:不仅显著超越了同参数规模的主流模型(包括 Qwen3-4B-2507、Nanbeige4-3B-2511 等),同时也明显领先于包括 Qwen3-30B-A3B、Qwen3-32B 在内的更大参数规模模型,展现出极具竞争力的越级对齐能力,打破了“对齐性能依赖大参数”的传统认知。

三、高效智能体能力:填补空白,实现通用与智能体双优

Nanbeige4.1-3B 最具里程碑意义的突破,在于其实现了通用推理与智能体能力的统一,成为首个原生支持深度搜索任务,并能够可靠维持超过 500 轮工具调用以完成复杂问题求解的通用小参数模型。这一突破填补了小模型生态中长期存在的核心空白:在此之前,绝大多数小模型通常只能在“通用推理优化”和“智能体能力优化”之间二选一——要么专注于通用推理,缺乏工具调用与深度搜索能力;要么针对智能体场景专项优化,通用推理性能薄弱,极少有模型能够同时在两个方向上达到较高水准,而 Nanbeige4.1-3B 成功实现了两者的兼顾与双优,让轻量模型也能承担复杂的智能体任务。

性能表现:多维度权威基准评估

为全面验证 Nanbeige4.1-3B 的综合性能,我们在覆盖通用推理能力深度搜索智能体能力两大核心维度的广泛、多样化权威基准上,对该模型进行了系统、严谨的评估。评估过程中,我们选取了同规模、更大规模的主流开源模型作为对照,确保评估结果的客观性与参考价值,具体评估数据如下:

一、通用推理任务评估

通用推理任务评估涵盖代码、数学、科学、偏好对齐、工具使用五大类核心任务,全面检验模型的综合推理能力。评估结果显示,Nanbeige4.1-3B 不仅在同参数规模模型中表现突出,其整体综合性能甚至优于包括 Qwen3-30B-A3B-2507、Qwen3-32B 在内的更大参数模型,具体数据对比详见下表:

基准Qwen3-4B-2507Qwen3-8BQwen3-14BQwen3-32BQwen3-30B-A3B-2507Nanbeige4-3B-2511Nanbeige4.1-3B
代码
Live-Code-Bench-V657.449.455.955.766.046.076.9
Live-Code-Bench-Pro-Easy40.241.233.042.360.840.281.4
Live-Code-Bench-Pro-Medium5.33.51.83.53.55.328.1
数学
AIME 2026 I81.4670.4276.4675.8387.3084.187.40
HMMT Nov68.3348.3356.6757.0871.2566.6777.92
IMO-Answer-Bench48.0036.5641.8143.9454.3438.2553.38
科学
GPQA65.862.063.3868.473.482.283.8
HLE (纯文本)6.725.287.009.3111.7710.9812.60
对齐
Arena-Hard-v234.926.336.956.060.260.073.2
Multi-Challenge41.1436.3036.9738.7249.4041.2052.21
工具使用
BFCL-V444.8742.2045.1447.9048.653.856.50
Tau2-Bench45.942.0644.9645.2647.7041.7748.57

二、深度搜索任务评估

作为一款通用小参数模型,Nanbeige4.1-3B 在深度搜索与智能体任务上的表现实现了质的飞跃——其深度搜索性能可与 100 亿参数以下的专用智能体模型相媲美,而相较于现有绝大多数小规模通用模型(普遍几乎不具备深度搜索能力),Nanbeige4.1-3B 彻底打破了小模型在该领域的性能瓶颈,实现了相对于传统小规模通用模型的跨越式提升。具体评估数据(深度搜索与智能体基准)详见下表:

模型xBench-DeepSearch-2505xBench-DeepSearch-2510Browse-CompBrowse-Comp-ZHGAIA (纯文本)HLESEAL-0
搜索专用小智能体
MiroThinker-v1.0-8B6131.140.266.421.540.4
AgentCPM-Explore-4B7025.029.063.919.140.0
大型基座模型(带工具)
GLM-4.6-357B7045.149.571.930.4
Minimax-M2-230B7244.048.575.731.8
DeepSeek-V3.2-671B7167.665.063.540.838.5
小型基座模型(带工具)
Qwen3-4B-25073451.577.9228.3311.1315.74
Qwen3-8B3120.795.1519.5310.246.34
Qwen3-14B3492.367.1130.2310.1712.64
Qwen3-32B3983.157.3430.179.268.15
Qwen3-30B-A3B-250725101.574.1231.6314.819.24
我们的模型(带工具)
Nanbeige4-3B-251133110.793.0919.4213.8912.61
Nanbeige4.1-3B753919.1231.8369.9022.2941.44

从上述评估数据可以清晰看出,Nanbeige4.1-3B 在深度搜索与智能体任务上的表现,不仅远超同规模的 Qwen3 系列模型,甚至超过了部分搜索专用的小智能体模型(如 MiroThinker-v1.0-8B、AgentCPM-Explore-4B),充分验证了其在智能体能力上的突破性与可靠性。

© 版权声明

相关文章

暂无评论

none
暂无评论...