高效且精确的注意力机制量化方法SageAttention:加速大语言处理、图像生成和视频生成模型 清华大学的研究人员推出一种高效且精确的注意力机制量化方法SageAttention,此方法的OPS(每秒操作数)性能分别比FlashAttention2和xformers提高了约2.1倍和2.7倍。S... 新技术# SageAttention# 注意力机制 5个月前02940