SageAttention3 发布:FP4 推理加速与 8 位训练新探索清华大学研究团队近日推出 SageAttention3,一项聚焦于提升 Transformer 注意力机制效率的新研究成果。该工作在推理阶段引入基于 FP4 的微缩放量化技术,并首次系统性探索了 8 ...新技术# SageAttention3# 清华大学2个月前0690