新RotorQuant:LLM KV 缓存压缩的“几何革命”,速度提升 5 倍,参数减少 44 倍RotorQuant 是一项突破性的 KV 缓存量化技术,旨在解决大型语言模型(LLM)在长上下文推理中的显存瓶颈。通过引入块对角旋转(Block-Diagonal Rotation)替代传统的蝴蝶网...新技术# RotorQuant2天前060