XQUANT:通过低比特量化和KV缓存重物质化来显著降低大语言模型推理过程中的内存消耗加州大学伯克利分校、FuriosaAI、ICSI和劳伦斯伯克利国家实验室的研究人员推出一种名为XQUANT的技术,通过低比特量化和KV缓存重物质化来显著降低大语言模型(LLM)推理过程中的内存消耗。X...新技术# KV缓存# XQUANT4个月前01520