麻省理工突破:Attention Matching 技术让 LLM 内存需求骤降 50 倍,精度无损在企业级 AI 应用中,长上下文处理一直是个昂贵的痛点。分析数百页的法律合同、维护跨天的客户对话、或运行自主编码智能体时,KV 缓存(Key-Value Cache)的内存占用往往成为瓶颈,单个请求即...新技术# Attention Matching# 麻省理工学院3天前0120