字节跳动 Seed 团队发布 Seed-OSS 系列开源模型:36B 参数,512K 长上下文,可灵活调整思考长度

大语言模型4个月前发布 小马良
258 0

字节跳动Seed团队正式推出Seed-OSS系列开放权重模型,该系列均为36B参数规模,聚焦长上下文处理、推理能力与代理任务优化,以Apache-2.0许可证开源,为开发者与研究社区提供高实用性工具。

字节跳动 Seed 团队发布 Seed-OSS 系列开源模型:36B 参数,512K 长上下文,可灵活调整思考长度

模型家族:3款36B模型,覆盖不同需求场景

Seed-OSS系列包含3款核心模型,均基于统一架构开发,仅在预训练数据与微调方向上存在差异,可满足基础研究、下游应用等不同场景需求:

  • Seed-OSS-36B-Base:基础模型,经过合成指令数据预训练,具备更均衡的通用能力,适合作为各类应用的基础底座。
  • Seed-OSS-36B-Base-woSyn:基础模型“纯净版”,未引入合成指令数据预训练,为研究社区提供无指令数据干扰的基准模型,便于开展对比实验。
  • Seed-OSS-36B-Instruct:指令微调模型,针对下游任务优化,在智能体(Agent)任务(如工具使用、问题解决)与推理能力上表现突出,可直接用于实际应用场景。

核心特性:5大优势,兼顾性能与灵活性

Seed-OSS系列围绕“实用化”与“研究友好”设计,核心特性可概括为5点:

  1. 灵活控制思考预算:支持动态调整推理长度(类似GPT-OSS的low-high模式),简单任务可缩短思考链提升效率,复杂任务可延长思考链保证精度。
  2. 增强推理能力:在数学计算、逻辑分析等推理任务中专项优化,同时保持通用能力均衡,避免“偏科”。
  3. 优化代理智能:针对工具调用、多步骤问题解决等Agent任务打磨,在零售、航空等场景的代理测试中表现优异。
  4. 研究友好设计:同步提供“含合成指令数据”与“不含合成指令数据”的基础模型,帮助研究者分析指令数据对模型性能的影响。
  5. 原生长上下文支持:原生上下文长度达512K,可直接处理超长文本(如完整文档、长对话),无需额外截断或拼接。

模型架构:主流技术融合,保障高效运行

Seed-OSS采用因果语言模型架构,整合多项成熟技术,在性能与效率间取得平衡,具体参数如下:

核心参数配置详情
参数量36B
注意力机制GQA(分组查询注意力)
激活函数SwiGLU
网络层数64层
QKV头数80 / 8 / 8
头维度128
隐藏层维度5120
词汇量155K
上下文长度512K
RoPE基础频率1e7

评估结果:多维度测试表现优异,部分指标开源领先

团队针对基础模型与指令微调模型,分别在知识、推理、数学、编程、代理等维度进行测试,部分结果如下(加粗为开源模型最佳表现):

1. Seed-OSS-36B-Base:基础能力扎实

在基础模型对比中,含合成指令数据的Base版本(w/ syn.)在多数基准测试中优于“纯净版”(w/o syn.),尤其在数学任务中优势明显:

测试类别基准测试Seed-OSS-36B-Base (w/ syn.)Seed-OSS-36B-Base (w/o syn.)其他开源模型参考(如Qwen2.5-32B-Base)
知识MMLU-Pro65.160.458.5 (55.1)
推理BBH87.787.279.1 (84.5)
数学MATH81.761.363.5 (57.7)
编程HumanEval76.875.647.6 (58.5)

2. Seed-OSS-36B-Instruct:下游任务与代理能力突出

指令微调模型在Agent任务与长上下文测试中表现亮眼,部分指标超越主流开源模型:

测试类别基准测试Seed-OSS-36B-Instruct其他开源模型参考(如OAI-OSS-20B)
代理TAU1-Retail70.4(54.8)
代理SWE-Bench Verified56(60.7)
长上下文RULER (128K)94.678.7
编程LiveCodeBench v667.463.8

使用建议:采样参数与思考预算调整

为保障模型输出效果,团队提供2点核心使用建议:

  1. 推荐采样参数:默认使用temperature=1.1top_p=0.95;若为Taubench测试场景,建议调整为temperature=1top_p=0.7
  2. 思考预算适配:根据任务复杂度调整思考长度——简单任务(如IFEval指令遵循)无需过长思考链,评分随预算增加可能波动;复杂任务(如AIME数学题、LiveCodeBench编程)建议延长思考链,评分随预算增加呈上升趋势。
© 版权声明

相关文章

暂无评论

none
暂无评论...