KV缓存

共 1 篇文章

排序

发布更新浏览点赞

XQUANT：通过低比特量化和KV缓存重物质化来显著降低大语言模型推理过程中的内存消耗

XQUANT：通过低比特量化和KV缓存重物质化来显著降低大语言模型推理过程中的内存消耗

加州大学伯克利分校、FuriosaAI、ICSI和劳伦斯伯克利国家实验室的研究人员推出一种名为XQUANT的技术，通过低比特量化和KV缓存重物质化来显著降低大语言模型（LLM）推理过程中的内存消耗。X...

新技术 # KV缓存 # XQUANT

6个月前

01800