FastMTP:通过增强多令牌预测提升大模型推理效率

大语言模型3个月前发布 小马良
130 0

在大语言模型(LLM)的实际应用中,推理速度是影响用户体验和部署成本的关键因素。尽管模型能力不断提升,但逐个生成 token 的方式带来了较高的延迟和计算开销。推测解码(Speculative Decoding)作为一种加速推理的技术,通过“草稿模型”预测多个未来 token 再由目标模型验证,能够在保证输出质量的前提下显著提升生成速度。

然而,传统推测解码依赖小型草稿模型,受限于其容量与上下文建模能力,导致预测命中率不高,限制了实际加速效果。为解决这一问题,腾讯提出了一种更高效、更实用的改进方案FastMTP ——增强型多令牌预测(Enhanced Multi-Token Prediction)

FastMTP:通过增强多令牌预测提升大模型推理效率

核心思路:用一个轻量头实现多步预测

FastMTP 并未引入额外的草稿模型,而是在原始模型上附加一个小型、可训练的 MTP 头(Multi-Token Prediction Head),用于并行预测后续多个 token。该 MTP 头通过对多个因果位置进行联合建模,并在训练过程中共享参数,使模型能够捕捉更长距离的依赖关系。

关键创新在于:

  • 多步因果预测结构:MTP 头在多个时间步上递归预测未来 token,形成类似“草稿”的输出序列;
  • 权重共享机制:减少参数量,提高训练效率,同时增强泛化能力;
  • 端到端微调:仅对 MTP 头进行轻量级微调,不修改主干模型,保持原始输出分布不变。

这种方式避免了维护独立草稿模型的复杂性,也降低了部署门槛。

进一步优化:语言感知词汇压缩

为了降低 MTP 头在预测过程中的计算负担,FastMTP 引入了语言感知的词汇压缩策略。该方法根据子词频率和语义相关性,将原始词汇表映射到一个更紧凑的空间,在保留关键表达能力的同时,减少了预测阶段的分类维度,从而加快 MTP 头的前向计算速度。

这种压缩不是简单降维,而是结合语言统计特性设计,确保高频、有意义的 token 得到保留,兼顾效率与准确性。

实验表现:稳定加速,无损质量

在多个主流基准(如 GSM8K、XSUM、WikiText 等)上的测试表明:

  • FastMTP 在不同规模模型(从 1B 到 7B 参数级别)上均实现了平均 2.03 倍的推理速度提升
  • 推测接受率相比基线方法提升显著,最高可达 85% 以上;
  • 输出质量与原始模型一致,无可见退化;
  • 训练成本低,通常只需数小时即可完成 MTP 头微调。

更重要的是,FastMTP 可无缝集成到现有的推理框架中(如 vLLM、HuggingFace Transformers),无需更改底层引擎或硬件配置,具备良好的工程实用性。

FastMTP:通过增强多令牌预测提升大模型推理效率
© 版权声明

相关文章

暂无评论

none
暂无评论...