字节跳动 Seed 团队近期发布了一款实验性语言模型——Seed Diffusion 预览版,它采用离散状态扩散机制,专注于代码生成任务,在推理速度上实现了显著突破:最高可达 2,146 token/s,相较同规模自回归模型提速 5.4 倍,且在多个核心基准测试中保持竞争力。
这一成果并非简单提速,而是对语言模型生成范式的一次系统性探索:团队试图验证,以离散扩散为基础的架构,是否能成为下一代大模型的有效替代路径。选择代码作为试验场,正是因为其结构清晰、逻辑严谨,便于量化评估模型的推理与纠错能力。

通过引入多项关键技术,Seed Diffusion 在速度与质量之间找到了新的平衡点,为生成模型的发展提供了值得深思的方向。
为什么是扩散模型?挑战自回归的瓶颈
当前主流的大语言模型几乎都基于自回归架构——逐个生成 token,每一步依赖前序输出。这种方式天然符合语言的时序特性,但也带来了明显的性能瓶颈:生成速度受限于序列长度,难以并行化。
而扩散模型原本广泛应用于图像生成领域,近年来也被尝试用于文本任务。其核心思想是:从完全噪声出发,通过多步去噪逐步恢复出目标序列。由于每一步可以并行处理所有位置,理论上具备更高的解码效率。
但在离散文本空间中应用扩散模型面临诸多挑战:
- 如何设计有效的噪声调度?
- 如何保证生成结果的语法正确性和语义一致性?
- 如何避免训练过程中的“虚假相关性”?
Seed Diffusion 正是对这些问题的系统回应。
核心方法一:两阶段扩散训练——从填充到编辑
为提升模型对代码逻辑的理解能力,团队设计了两阶段课程学习策略,分步引导模型掌握从局部模式识别到全局逻辑修正的能力。
第一阶段:基于掩码的扩散训练
初始阶段采用经典的掩码填充任务。按照动态噪声调度策略,随机将部分 token 替换为 [MASK],训练模型根据上下文还原被遮蔽内容。
这个过程帮助模型学习代码的常见结构模式,如函数定义、缩进规则、变量命名习惯等。但它也带来一个隐患:模型可能形成“未被掩码的部分总是正确的”这一错误假设,导致缺乏主动纠错能力。
第二阶段:基于编辑的扩散训练
为此,团队引入第二阶段训练,使用插入与删除操作构建更复杂的扰动样本。这些扰动不仅改变局部内容,还破坏原有语法结构或逻辑依赖。
训练目标不再是简单还原原始序列,而是在最小编辑距离约束下,将损坏的代码恢复为功能等价的正确版本。这迫使模型重新审视每一个 token,判断其合理性,从而打破第一阶段形成的“盲目信任”。
实验证明,这一策略显著提升了模型的代码理解与修复能力。在 CanItEdit 基准测试中,Seed Diffusion 的 pass@1 分数达到 54.3%,相比同规模自回归模型(50.5%)提升 4.8 个百分点,显示出更强的逻辑分析能力。
核心方法二:受限顺序扩散——注入结构先验
尽管扩散模型支持非自回归生成,但代码具有强因果依赖:变量必须先声明后使用,函数需按调用顺序组织。若完全打乱生成顺序,容易产生语法错误或运行时异常。
为此,团队提出受限顺序扩散训练,在去噪过程中引入结构约束。
具体做法是在后训练阶段,利用预训练模型合成大量高质量生成轨迹,并筛选出符合语法与逻辑依赖关系的路径。随后通过知识蒸馏方式,将这些“正确顺序”的生成过程注入扩散模型。
这种训练方式让模型在保持并行能力的同时,隐式学习到代码的结构先验,减少无效探索,提高生成稳定性。
核心方法三:高效并行解码与在线策略学习
理论上,扩散模型可通过少量步骤完成生成,实现高速推理。但实践中,若强行减少去噪步数,往往导致质量急剧下降。
为解决这一矛盾,团队提出了在线策略学习(Online Policy Learning)范式。
该方法不直接优化最终生成质量,而是训练模型自主优化生成路径本身。目标函数综合考虑两个因素:
- 生成步数最小化(|τ|)
- 输出质量保障(由独立验证器 V 评估)
由于直接最小化步数易引发训练不稳定,团队采用基于编辑距离变化率的代理损失函数:鼓励模型在每一步中尽可能多地修正错误,加快收敛速度。
训练结果显示,模型逐渐学会跳过低效路径,快速聚焦于高质量解。这一机制的效果类似于非自回归模型中的“模式过滤”,但它是通过端到端训练自然涌现的,无需人工设计规则。
工程实现:从理论到落地的系统优化
算法创新之外,工程实现同样关键。为了充分发挥并行优势,团队采用了分块并行扩散采样方案:
- 将输入序列划分为若干块,块内并行去噪,块间保持因果顺序;
- 使用 KV 缓存复用已生成块的上下文信息,降低重复计算开销;
- 不针对特定块大小进行训练,确保推理时可根据设备资源灵活调整分块策略。
整个流程依托于团队自研的扩散采样优化框架,在底层对注意力计算、内存调度和通信开销进行了深度调优。实验表明,不同块大小对吞吐量和延迟有显著影响,合理配置可进一步提升整体效率。
实验结果:速度与质量的双重验证
在多项代码生成基准测试中,Seed Diffusion 展现出均衡表现:
| 指标 | 表现 |
|---|---|
| 推理速度 | 最高 2,146 token/s,较自回归模型提速 5.4 倍 |
| 代码生成质量 | 在 HumanEval、MBPP 等基准上与先进自回归模型相当 |
| 代码编辑能力 | 在 CanItEdit 上 pass@1 达 54.3%,超越对比模型 |
更重要的是,它在速度-质量帕累托前沿上确立了新的标杆:在不牺牲性能的前提下,大幅缩短生成时间。

这表明,离散扩散不仅是一种加速手段,更是一种具备独立建模能力的生成范式。
后续方向:不止于代码
目前 Seed Diffusion 仍处于预览阶段,主要聚焦于代码生成任务。但其技术路径具有更强的延展性:
- 可探索更大规模模型下的扩展规律;
- 能否应用于复杂推理、数学证明或多跳问答?
- 在自然语言生成中是否也能实现类似的效率提升?
这些问题正在被持续研究。团队表示,未来将进一步开放更多细节,推动扩散语言模型的生态发展。















