RotorQuant

共 1 篇文章

排序

发布更新浏览点赞

RotorQuant：LLM KV 缓存压缩的“几何革命”，速度提升 5 倍，参数减少 44 倍

新RotorQuant：LLM KV 缓存压缩的“几何革命”，速度提升 5 倍，参数减少 44 倍

RotorQuant 是一项突破性的 KV 缓存量化技术，旨在解决大型语言模型（LLM）在长上下文推理中的显存瓶颈。通过引入块对角旋转（Block-Diagonal Rotation）替代传统的蝴蝶网...

新技术 # RotorQuant

2天前

060