SageAttention2

尽管线性层的量化技术已经广泛应用于深度学习模型中，但在加速注意力机制方面的应用仍然有限。为了提高注意力计算的效率并保持高精度，清华大学的研究团队提出了 SageAttention2，这是一个基于低精度...

4个月前

01680