TriAttention

共 1 篇文章

排序

发布更新浏览点赞

TriAttention：基于三角 KV 压缩的高效长推理，让 32B 模型在 24GB 显存上流畅运行

新TriAttention：基于三角 KV 压缩的高效长推理，让 32B 模型在 24GB 显存上流畅运行

麻省理工学院、英伟达和浙江大学的研究人员联合推出了一项突破性技术——TriAttention。这是一种基于三角级数（Triangular Series）的 KV 缓存压缩方法，解决大型语言模型（LLM...

新技术 # TriAttention

8小时前

020