阶跃星辰推出Step 3.5 Flash:196B MoE 开源旗舰,推理与智能体性能对标闭源顶级模型

Step 3.5 Flash 是阶跃星辰推出的开源旗舰语言推理模型,定位为当前最强大的开源基座之一,专为极致效率、深度推理、智能体(Agent)执行而生。

它基于稀疏混合专家(MoE)架构,总参数量 196B,但每 Token 仅激活约 11B 参数,在保持“大模型记忆与理解能力”的同时,实现“小模型级推理速度”,兼顾超高智能密度、极速响应、长上下文、本地部署友好四大核心优势,可胜任逻辑推理、数学、软件工程、深度研究、复杂工具调用、长文本处理等全场景复杂任务,是开源模型中对标 GPT-4o、Kimi K2.5 等闭源顶级模型的关键选手。

阶跃星辰推出Step 3.5 Flash:196B MoE 开源旗舰,推理与智能体性能对标闭源顶级模型

核心架构与设计:MoE+MTP+SWA,效率与能力双突破

1. 基础技术规格(硬核参数)

组件规格
骨干网络45 层 Transformer,隐藏维度 4096
上下文长度256K(滑动窗口注意力优化)
词汇表128,896 tokens
总参数量196.81B(196B 骨干 + 0.81B 输出头)
每 Token 激活参数量~11B(仅激活少量专家,速度与成本大幅下降)

2. 稀疏混合专家(MoE):大模型能力,小模型速度

Step 3.5 Flash 采用细粒度 MoE 路由设计,在不损失模型容量的前提下实现极致效率:

  • 每层包含 288 个路由专家 + 1 个共享专家(始终激活);
  • 每 Token 仅选择 Top-8 专家 激活,其余保持静默;
  • 结果:保留 196B 模型的知识容量、理解深度与泛化能力,却以 ~11B 模型的计算量与显存开销 完成推理,实现“智能密度”最大化。

3. 三路多 Token 预测(MTP-3):吞吐量突破 300 tok/s

为满足智能体“快速思考、即时响应”的核心需求,模型内置专用 MTP Head,支持单次前向传播同时预测 4 个 Token,配合滑动窗口注意力,实现:

  • 典型场景生成吞吐量:100–300 tok/s
  • 单流代码任务峰值:350 tok/s
  • 复杂多步推理链也能做到“即时响应、无明显等待”,远超传统开源模型。

4. 3:1 滑动窗口注意力(SWA):256K 上下文低成本高效

采用 1 层全注意力 + 3 层 SWA 的混合结构,在 256K 超长上下文下实现:

  • 处理海量文档、超长代码库、多轮对话时,性能不衰减
  • 相比传统全注意力长上下文模型,计算开销大幅降低,部署成本更友好;
  • 上下文压缩与记忆能力更强,适合深度研究、长文本理解、代码工程等场景。

核心能力:推理、代码、Agent 三强合一

1. 前沿智能 + 极速响应:智能体“想”得快、做得稳

区别于普通聊天模型“重在读”,Step 3.5 Flash 专为 Agent 设计,“想”得极快

  • MTP-3 技术带来超高吞吐,复杂推理链无延迟;
  • 内置可扩展强化学习(RL)框架,支持持续自我进化;
  • 工具调用、任务分解、多步计划执行稳定可靠,适合自动化 Agent 系统。

2. 代码与软件工程:工业级稳健引擎

在代码与软件工程领域,Step 3.5 Flash 表现达到开源第一梯队:

  • SWE-bench Verified:74.4%,开源模型顶尖水平,可处理真实世界复杂软件工程任务;
  • Terminal-Bench 2.0:51.0%,命令行工具使用、系统操作、脚本编写能力突出;
  • LiveCodeBench-V6:86.4%,实时代码生成、调试、优化能力强;
  • 支持长代码库理解、跨文件重构、复杂项目规划,是 AI 编程、代码智能体的理想基座。

3. 顶级推理能力:数学、竞赛、深度研究全面领先

在数学、逻辑、学术推理等硬核任务上,对标闭源顶级模型:

  • AIME 2025:97.3%
  • HMMT 2025(Feb):98.4%
  • HMMT 2025(Nov):94.0%
  • IMOAnswerBench:85.4%
  • xbench-DeepSearch、ResearchRubrics 等深度研究基准全面领先同参数开源模型。

4. 长上下文与信息获取:256K 窗口+强检索理解

  • 原生支持 256K 上下文,可直接输入整本书、大型代码库、超长对话;
  • BrowseComp、BrowseComp-ZH 等网页/信息检索基准表现优异,配合上下文管理器(Context Manager)性能进一步提升;
  • 适合深度研究、文档总结、知识库问答、长文本分析。

5. 本地部署友好:高端消费级硬件即可跑

专为易用性与隐私优化,支持本地部署

  • 可在 Mac Studio M4 Max、NVIDIA DGX Spark 等高端消费级/企业级硬件上运行;
  • 数据完全本地处理,隐私安全可控;
  • 性能与云端部署几乎无差距,兼顾效率与安全。

性能对比:开源最强,对标闭源顶级模型

Step 3.5 Flash 在推理、编程、智能体三大维度全面领先主流开源模型,部分指标逼近/追平 Kimi K2.5、GPT-4o 等闭源顶级模型,且在解码效率(速度/成本)上具备碾压优势。

阶跃星辰推出Step 3.5 Flash:196B MoE 开源旗舰,推理与智能体性能对标闭源顶级模型

1. 核心效率对比(解码成本 & 吞吐)

模型激活参数量总参数量 (MoE)解码成本(相对)典型吞吐
Step 3.5 Flash11B196B1.0x100–300 tok/s (MTP-3)
DeepSeek V3.237B671B6.0x33 tok/s
Kimi K2.532B1T18.9x33 tok/s
GLM-4.732B355B18.9x100 tok/s
MiniMax M2.110B230B3.9x100 tok/s
MiMo-V2 Flash15B309B1.2x100 tok/s

解码成本越低 = 速度越快、单 Token 计算/显存开销越小、部署越便宜。
Step 3.5 Flash 以 1.0x 基准成本,实现最高吞吐与最强综合性能,性价比与效率遥遥领先。

2. 关键 Benchmark 精选(核心能力)

智能体 & 信息获取(Agency)

BenchmarkStep 3.5 FlashDeepSeek V3.2Kimi K2.5GLM-4.7
τ²-Bench88.280.387.4
BrowseComp51.651.460.652.0
BrowseComp (w/ CM)69.067.674.967.5
BrowseComp-ZH66.965.062.366.6
GAIA (no file)84.575.175.961.9
xbench-DeepSearch(10)56.355.740+52.3

推理(数学/逻辑/学术)

BenchmarkStep 3.5 FlashDeepSeek V3.2Kimi K2.5GLM-4.7
AIME 202597.393.196.195.7
HMMT 2025 (Feb)98.492.595.497.1
HMMT 2025 (Nov)94.090.293.5
IMOAnswerBench85.478.381.882.0

代码 & 软件工程(Coding)

BenchmarkStep 3.5 FlashDeepSeek V3.2Kimi K2.5GLM-4.7
LiveCodeBench-V686.483.385.084.9
SWE-bench Verified74.473.176.873.8
Terminal-Bench 2.051.046.450.841.0

整体结论:

  • 推理、数学、学术:Step 3.5 Flash 全面领先同级别开源模型,接近闭源顶级;
  • 代码/软件工程:SWE-bench、Terminal-Bench 均为开源第一梯队;
  • 智能体、检索、长文本:配合上下文管理器后,BrowseComp 系列指标大幅提升,适合构建强 Agent;
  • 效率:解码成本仅为同类大模型 1/6~1/18,速度与部署成本优势巨大。

快速上手:API 接入,几分钟可用

1. 支持平台(获取 API Key)

目前可通过两大平台调用 Step 3.5 Flash,其中 OpenRouter 提供免费试用

提供商官网Base URL
OpenRouterhttps://openrouter.aihttps://openrouter.ai/api/v1
StepFun(阶跃星辰)https://platform.stepfun.comhttps://api.stepfun.com/v1

2. 接入流程(极简)

  1. 注册平台账号,创建应用,获取 API Key
  2. 选择模型 ID:step-3.5-flash(不同平台名称略有差异,以平台文档为准);
  3. 调用 /chat/completions 接口,传入 256K 上下文内的 prompt,即可使用。
© 版权声明

相关文章

暂无评论

none
暂无评论...