字节跳动推出 UltraMemV2:在低内存访问下,追平8专家MoE性能在大模型稀疏化架构的演进中,效率与性能的权衡始终是核心挑战。 MoE(Mixture of Experts)通过仅激活部分专家实现高效推理,但其频繁的跨专家参数访问带来了高昂的内存开销。为解决这一问题...新技术# UltraMemV2# 字节跳动3个月前0800