TurboQuant

在大型语言模型（LLM）向更长上下文、更复杂任务演进的过程中，显存瓶颈已成为制约效率的关键障碍。尤其是键值缓存（KV Cache），随着序列长度增加呈线性增长，不仅占用大量显存，还限制了推理速度和并发...

1天前

0150