字节跳动 Seed 团队发布 Seed-OSS 系列开源模型：36B 参数，512K 长上下文，可灵活调整思考长度

282 0

字节跳动Seed团队正式推出Seed-OSS系列开放权重模型，该系列均为36B参数规模，聚焦长上下文处理、推理能力与代理任务优化，以Apache-2.0许可证开源，为开发者与研究社区提供高实用性工具。

GitHub：https://github.com/ByteDance-Seed/seed-oss
模型：https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd

Seed-OSS系列包含3款核心模型，均基于统一架构开发，仅在预训练数据与微调方向上存在差异，可满足基础研究、下游应用等不同场景需求：

Seed-OSS-36B-Base：基础模型，经过合成指令数据预训练，具备更均衡的通用能力，适合作为各类应用的基础底座。
Seed-OSS-36B-Base-woSyn：基础模型“纯净版”，未引入合成指令数据预训练，为研究社区提供无指令数据干扰的基准模型，便于开展对比实验。
Seed-OSS-36B-Instruct：指令微调模型，针对下游任务优化，在智能体（Agent）任务（如工具使用、问题解决）与推理能力上表现突出，可直接用于实际应用场景。

Seed-OSS系列围绕“实用化”与“研究友好”设计，核心特性可概括为5点：

Seed-OSS采用因果语言模型架构，整合多项成熟技术，在性能与效率间取得平衡，具体参数如下：

团队针对基础模型与指令微调模型，分别在知识、推理、数学、编程、代理等维度进行测试，部分结果如下（加粗为开源模型最佳表现）：

在基础模型对比中，含合成指令数据的Base版本（w/ syn.）在多数基准测试中优于“纯净版”（w/o syn.），尤其在数学任务中优势明显：

测试类别	基准测试	Seed-OSS-36B-Base (w/ syn.)	Seed-OSS-36B-Base (w/o syn.)	其他开源模型参考（如Qwen2.5-32B-Base）
知识	MMLU-Pro	65.1	60.4	58.5 (55.1)
推理	BBH	87.7	87.2	79.1 (84.5)
数学	MATH	81.7	61.3	63.5 (57.7)
编程	HumanEval	76.8	75.6	47.6 (58.5)

指令微调模型在Agent任务与长上下文测试中表现亮眼，部分指标超越主流开源模型：

测试类别	基准测试	Seed-OSS-36B-Instruct	其他开源模型参考（如OAI-OSS-20B）
代理	TAU1-Retail	70.4	(54.8)
代理	SWE-Bench Verified	56	(60.7)
长上下文	RULER (128K)	94.6	78.7
编程	LiveCodeBench v6	67.4	63.8

为保障模型输出效果，团队提供2点核心使用建议：

推荐采样参数：默认使用temperature=1.1、top_p=0.95；若为Taubench测试场景，建议调整为temperature=1、top_p=0.7。
思考预算适配：根据任务复杂度调整思考长度——简单任务（如IFEval指令遵循）无需过长思考链，评分随预算增加可能波动；复杂任务（如AIME数学题、LiveCodeBench编程）建议延长思考链，评分随预算增加呈上升趋势。