SageAttention2:适用于即插即用推理加速的精确4位注意力机制 尽管线性层的量化技术已经广泛应用于深度学习模型中,但在加速注意力机制方面的应用仍然有限。为了提高注意力计算的效率并保持高精度,清华大学的研究团队提出了 SageAttention2,这是一个基于低精度... 新技术# SageAttention2# 推理加速 3个月前01460
CSpD:用于加速自回归图像生成模型的推理过程 中国科学院大学、中国科学院自动化研究所和中国铁塔的研究人员介绍了一种名为“Continuous Speculative Decoding”(CSpD)的技术,用于加速自回归(Autoregressiv... 新技术# CSpD# 推理加速 3个月前01570
新型推理加速技术SmoothCache:提高DiT模型在不同模态(如图像、视频和语音合成)任务中的推理效率 DiT架构因其强大的生成能力而在图像、视频和语音合成等多个领域展现出巨大潜力。然而,由于在推理过程中需要反复评估计算密集型的注意力和前馈模块,DiT架构的计算成本较高,这成为其广泛应用的一大障碍。为了... 新技术# SmoothCache# 推理加速 3个月前01510
ParaAttention:通过上下文并行注意力机制,使用多个GPU加速FLUX和Mochi模型的推理 ParaAttention是一种创新的上下文并行注意力机制,旨在通过多个GPU加速FLUX和Mochi模型的推理。通过支持torch.compile和多种并行策略,ParaAttention提供了高效... 新技术# ParaAttention# 推理加速 3个月前01870