上海交通大学发布SmallThinker 系列模型:专为设备端部署设计的原生混合专家(MoE)语言模型

大语言模型4个月前发布 小马良
268 0

上海交通大学 IPADS 实验室、人工智能学院与 Zenergize AI 联合研发的 SmallThinker 系列模型,是一组专为设备端部署设计的原生混合专家(MoE)语言模型。其核心目标是在资源受限的环境中,实现高性能、低延迟、高隐私性的本地推理,无需依赖云端服务。

SmallThinker 从架构层面针对边缘设备进行了优化,兼顾推理效率与模型能力,适用于手机、嵌入式设备甚至树莓派等低功耗平台。它不仅支持完整功能的语言理解与生成,还能在内存受限条件下稳定运行,是迈向真正“个人 AI”的重要一步。

核心性能表现:在多维度评测中领先同类模型

我们选取了多个主流开源模型,在标准基准上对 SmallThinker-21BA3B-Instruct 进行横向对比。所有测试均在非思考模式下完成,MMLU 使用 0-shot Chain-of-Thought 设置。

模型MMLUGPQA-diamondMATH-500IFEVALLIVEBENCHHUMANEVAL平均得分
SmallThinker-21BA3B-Instruct84.4355.0582.485.7760.389.6376.26
Gemma3-12b-it78.5234.8582.474.6844.582.9366.31
Qwen3-14B84.8250.0084.685.2159.588.4175.42
Qwen3-30BA3B85.1044.4084.484.2958.890.2474.54
Qwen3-8B81.7938.8981.683.9249.585.9070.26
Phi-4-14B84.5855.4580.263.2242.487.2068.84

从数据可见,SmallThinker 在 GPQA-diamond  IFEVAL 等强调逻辑与事实准确性的任务中显著优于多数竞品,尤其在 GPQA 上仅次于 Phi-4-14B,展现出 MoE 架构在知识推理方面的潜力。其综合平均分达到 76.26,位居前列。

值得注意的是,SmallThinker 的激活参数仅为 3B,远低于 Qwen3-30B 或 Gemma3-12B 的完整激活规模,却实现了接近甚至超越它们的表现,体现了 MoE 结构在“激活效率”上的优势。

推理速度与资源占用:面向真实设备优化

在边缘计算场景中,推理速度和内存占用往往比绝对性能更重要。SmallThinker 针对常见硬件平台进行了深度优化,以下是在不同设备上的 token 生成速度(tokens/s)与内存占用对比:

模型内存 (GiB)i9-14900 (4线程)1+13 8ge4 (4线程)rk3588 (16G)Raspberry Pi 5
SmallThinker 21B+sparse11.4730.1923.0310.846.61
SmallThinker +8G内存限制≤820.3015.508.56-
Qwen3-30B A3B16.2033.5220.189.07-
Qwen3-30B A3B +8G限制≤810.110.186.32-
Gemma3-nano E2B1(理论)36.8827.0612.506.66
Gemma3-nano E4B2(理论)21.9316.587.374.01

注:所有模型均已量化为 q4_0 格式;线程配置根据设备调整以最大化吞吐。

尽管 Qwen3-30B 在高端 CPU 上略快,但在 内存受限场景(如 8GB 限制)下,其性能急剧下降(如在 1+13 平台上仅 0.18 tokens/s),而 SmallThinker 仍能维持可用速度。这表明其在 实际部署中的鲁棒性更强

此外,SmallThinker 支持通过 PowerInfer 技术进行 GPU 卸载加速,进一步提升在集成显卡或轻量独立显卡设备上的表现。

模型架构概览

属性
架构混合专家(MoE)
总参数量21B
激活参数量3B
层数52
注意力隐藏维度2560
MoE 隐藏维度(每专家)768
注意力头数28
KV 头数4(GQA)
专家数量64
每 token 激活专家数6
词汇表大小151,936
上下文长度16K
注意力机制GQA
激活函数ReGLU

该架构通过稀疏激活机制,仅在推理时调用部分专家网络,大幅降低计算开销。同时,16K 的上下文长度支持长文本处理,适用于摘要、代码生成等任务。

适用场景与部署建议

SmallThinker 特别适合以下使用场景:

  • 本地化 AI 助手:运行在个人手机或笔记本上,保护用户数据隐私;
  • 离线环境应用:工业现场、车载系统、野外设备等无法联网的场合;
  • 低成本硬件部署:如基于 rk3588 的开发板或树莓派 5,实现轻量 AI 推理;
  • 教育与研究:作为 MoE 架构的教学案例或边缘 AI 实验平台。

开发者可通过 GGUF 等格式将其部署至 llama.cpp、MLC LLM 或支持 PowerInfer 的运行时环境,快速集成进现有应用。

© 版权声明

相关文章

暂无评论

none
暂无评论...