新TriAttention:基于三角 KV 压缩的高效长推理,让 32B 模型在 24GB 显存上流畅运行麻省理工学院、英伟达和浙江大学的研究人员联合推出了一项突破性技术——TriAttention。这是一种基于三角级数(Triangular Series)的 KV 缓存压缩方法,解决大型语言模型(LLM...新技术# TriAttention8小时前020