字节跳动推出 UltraMemV2:在低内存访问下,追平8专家MoE性能

新技术4个月前发布 小马良
82 0

在大模型稀疏化架构的演进中,效率与性能的权衡始终是核心挑战。

MoE(Mixture of Experts)通过仅激活部分专家实现高效推理,但其频繁的跨专家参数访问带来了高昂的内存开销。为解决这一问题,早期提出的 Ultra sparse memory network(UltraMem) 采用类似机制,却以更低的内存访问成本实现了更快的推理速度。然而,它的性能仅相当于2专家MoE,难以满足高阶任务需求。

现在,字节跳动 Seed 项目组发布 UltraMemV2 —— 一种重新设计的内存网络架构,在保持极低内存访问的同时,性能已全面追平最先进的8专家MoE模型

字节跳动推出 UltraMemV2:在低内存访问下,追平8专家MoE性能

这不仅是一次架构迭代,更是对“稀疏即慢”这一固有认知的突破。

问题本质:稀疏 ≠ 高效

当前主流稀疏模型(如MoE)的核心思想是:

每个输入仅激活少量专家,从而减少计算量。

但现实是:

  • 即使计算量下降,参数分布分散导致大量缓存未命中
  • 频繁的内存读取成为瓶颈,尤其在长序列场景下
  • 实际推理速度受限于内存带宽而非算力

UltraMem 的初衷正是应对这一瓶颈:它用一个集中式可寻址内存表替代分散专家,通过检索机制激活参数,大幅降低内存访问次数。

但初代 UltraMem 因表达能力不足,性能停滞在2专家MoE水平。

UltraMemV2 的目标很明确

在不增加内存访问成本的前提下,提升表达能力,达到8专家MoE的性能上限。

架构创新:从“能用”到“好用”的五项关键改进

UltraMemV2 并非简单扩大内存表,而是在架构层面进行系统性重构。其核心改进包括:

1. 内存层深度集成

  • 将内存层嵌入每一个 Transformer 块中
  • 不再是外围增强模块,而是模型的基础记忆单元
  • 每一层都能动态检索和更新长期语义信息

2. 简化隐式值扩展(IVE)

  • 原始 IVE 使用复杂非线性映射扩展检索到的内存值
  • UltraMemV2 改为单一线性投影,显著降低计算开销
  • 实验表明,简单映射在多数任务中已足够有效

3. 基于 FFN 的值处理(借鉴 PEER)

  • 引入轻量 FFN 结构处理检索后的内存值
  • FFN 内部维度固定,参数效率高
  • 在不增加稀疏激活参数的前提下提升非线性表达能力

4. 优化初始化策略

  • 内存表与查询头的初始化经过精细调校
  • 防止训练初期因检索偏差导致梯度爆炸或收敛困难
  • 提升训练稳定性,支持更大规模部署

5. 计算比例再平衡

  • 调整内存层与标准 FFN 的计算资源配比
  • 避免内存层成为瓶颈或冗余组件
  • 实现整体计算效率最优

这些改动共同构成了一个更紧凑、更稳定、更具表达力的稀疏记忆架构。

字节跳动推出 UltraMemV2:在低内存访问下,追平8专家MoE性能

工作原理:如何实现“低访存、高性能”?

UltraMemV2 的工作流程如下:

  1. 查询生成
    输入 token 经过查询头生成检索向量。
  2. Tucker 分解查询键检索(TDQKR)
    使用 Tucker 分解压缩键空间,在降低存储成本的同时高效匹配最相关的内存条目。
  3. 值检索与扩展
    检索出对应的内存值,通过线性投影 + 轻量 FFN 进行非线性变换。
  4. 融合输出
    将处理后的值与主干网络输出融合,进入下一层。

整个过程仅需一次主内存访问,远少于 MoE 多专家并行读取的开销。

性能表现:追平MoE,超越在长序列

在相同计算预算和参数配置下,UltraMemV2 实现了与8专家MoE相当的整体性能,但在关键任务上显著领先:

任务相比 MoE 提升
长文本记忆+1.6 个百分点
多轮对话记忆+6.2 个百分点
上下文学习(in-context learning)+7.9 个百分点

这表明:UltraMemV2 不仅“跑得快”,而且“记得住”

特别是在处理超过8K token 的长文档或多轮对话历史时,其内置记忆机制展现出更强的上下文保持能力。

字节跳动推出 UltraMemV2:在低内存访问下,追平8专家MoE性能

可扩展性验证:支持超大规模模型

UltraMemV2 已在 1200亿参数 的大模型中完成验证:

  • 每次推理仅激活 2.5B 参数
  • 激活密度低至约 2%
  • 训练稳定,性能随规模持续提升

更重要的是,实验发现:

激活参数的“质量”和“分布密度”对性能的影响,远大于总稀疏参数数量。

这意味着:通过更智能的检索机制和更高效的值处理,可以用更少的激活实现更好的效果。

应用场景

UltraMemV2 特别适用于以下场景:

✅ 长文本处理

  • 法律合同、科研论文、小说章节等长文档理解与生成
  • 支持跨段落语义关联,避免信息遗忘

✅ 多轮对话系统

  • 在客服、虚拟助手等场景中,持续跟踪用户意图与历史上下文
  • 减少重复提问,提升对话连贯性

✅ 资源受限部署

  • 移动端、边缘设备等内存带宽受限环境
  • 在低功耗下实现高质量推理

✅ 大规模预训练

  • 作为 MoE 的替代架构,用于下一代百亿级以上语言模型
  • 降低训练与推理的基础设施成本
© 版权声明

相关文章

暂无评论

none
暂无评论...