FastMTP:通过增强多令牌预测提升大模型推理效率在大语言模型(LLM)的实际应用中,推理速度是影响用户体验和部署成本的关键因素。尽管模型能力不断提升,但逐个生成 token 的方式带来了较高的延迟和计算开销。推测解码(Speculative Dec...大语言模型# FastMTP# 推理模型3个月前01300