推理加速

排序

尽管线性层的量化技术已经广泛应用于深度学习模型中，但在加速注意力机制方面的应用仍然有限。为了提高注意力计算的效率并保持高精度，清华大学的研究团队提出了 SageAttention2，这是一个基于低精度...

4个月前

01670

中国科学院大学、中国科学院自动化研究所和中国铁塔的研究人员介绍了一种名为“Continuous Speculative Decoding”（CSpD）的技术，用于加速自回归（Autoregressiv...

4个月前

01900

DiT架构因其强大的生成能力而在图像、视频和语音合成等多个领域展现出巨大潜力。然而，由于在推理过程中需要反复评估计算密集型的注意力和前馈模块，DiT架构的计算成本较高，这成为其广泛应用的一大障碍。为了...

4个月前

01730

ParaAttention是一种创新的上下文并行注意力机制，旨在通过多个GPU加速FLUX和Mochi模型的推理。通过支持torch.compile和多种并行策略，ParaAttention提供了高效...

5个月前

02040