新加坡国立大学等提出 SparseD:让扩散语言模型在长上下文场景高效运行的稀疏注意力新方案扩散语言模型(Diffusion Language Models, DLMs)因其支持并行生成文本的能力,被视为自回归模型(AR)之外的一条重要技术路径。然而,其高昂的推理延迟严重制约了实际应用,尤其...大语言模型# SparseD# 稀疏注意力# 长上下文场景2个月前01120