字节跳动推出 UltraMemV2：在低内存访问下，追平8专家MoE性能

新技术5个月前发布小马良

84 0

在大模型稀疏化架构的演进中，效率与性能的权衡始终是核心挑战。

MoE（Mixture of Experts）通过仅激活部分专家实现高效推理，但其频繁的跨专家参数访问带来了高昂的内存开销。为解决这一问题，早期提出的 Ultra sparse memory network（UltraMem） 采用类似机制，却以更低的内存访问成本实现了更快的推理速度。然而，它的性能仅相当于2专家MoE，难以满足高阶任务需求。

GitHub：https://github.com/ZihaoHuang-notabot/Ultra-Sparse-Memory-Network

现在，字节跳动 Seed 项目组发布 UltraMemV2 —— 一种重新设计的内存网络架构，在保持极低内存访问的同时，性能已全面追平最先进的8专家MoE模型。

字节跳动推出 UltraMemV2：在低内存访问下，追平8专家MoE性能

这不仅是一次架构迭代，更是对“稀疏即慢”这一固有认知的突破。

问题本质：稀疏 ≠ 高效

当前主流稀疏模型（如MoE）的核心思想是：

每个输入仅激活少量专家，从而减少计算量。

但现实是：

即使计算量下降，参数分布分散导致大量缓存未命中
频繁的内存读取成为瓶颈，尤其在长序列场景下
实际推理速度受限于内存带宽而非算力

UltraMem 的初衷正是应对这一瓶颈：它用一个集中式可寻址内存表替代分散专家，通过检索机制激活参数，大幅降低内存访问次数。

但初代 UltraMem 因表达能力不足，性能停滞在2专家MoE水平。

UltraMemV2 的目标很明确：

在不增加内存访问成本的前提下，提升表达能力，达到8专家MoE的性能上限。

架构创新：从“能用”到“好用”的五项关键改进

UltraMemV2 并非简单扩大内存表，而是在架构层面进行系统性重构。其核心改进包括：

1. 内存层深度集成

将内存层嵌入每一个 Transformer 块中
不再是外围增强模块，而是模型的基础记忆单元
每一层都能动态检索和更新长期语义信息

2. 简化隐式值扩展（IVE）

原始 IVE 使用复杂非线性映射扩展检索到的内存值
UltraMemV2 改为单一线性投影，显著降低计算开销
实验表明，简单映射在多数任务中已足够有效

3. 基于 FFN 的值处理（借鉴 PEER）

引入轻量 FFN 结构处理检索后的内存值
FFN 内部维度固定，参数效率高
在不增加稀疏激活参数的前提下提升非线性表达能力

4. 优化初始化策略

内存表与查询头的初始化经过精细调校
防止训练初期因检索偏差导致梯度爆炸或收敛困难
提升训练稳定性，支持更大规模部署

5. 计算比例再平衡

调整内存层与标准 FFN 的计算资源配比
避免内存层成为瓶颈或冗余组件
实现整体计算效率最优

这些改动共同构成了一个更紧凑、更稳定、更具表达力的稀疏记忆架构。

字节跳动推出 UltraMemV2：在低内存访问下，追平8专家MoE性能

工作原理：如何实现“低访存、高性能”？

UltraMemV2 的工作流程如下：

查询生成
输入 token 经过查询头生成检索向量。
Tucker 分解查询键检索（TDQKR）
使用 Tucker 分解压缩键空间，在降低存储成本的同时高效匹配最相关的内存条目。
值检索与扩展
检索出对应的内存值，通过线性投影 + 轻量 FFN 进行非线性变换。
融合输出
将处理后的值与主干网络输出融合，进入下一层。

整个过程仅需一次主内存访问，远少于 MoE 多专家并行读取的开销。

性能表现：追平MoE，超越在长序列

在相同计算预算和参数配置下，UltraMemV2 实现了与8专家MoE相当的整体性能，但在关键任务上显著领先：

任务	相比 MoE 提升
长文本记忆	+1.6 个百分点
多轮对话记忆	+6.2 个百分点
上下文学习（in-context learning）	+7.9 个百分点

这表明：UltraMemV2 不仅“跑得快”，而且“记得住”。

特别是在处理超过8K token 的长文档或多轮对话历史时，其内置记忆机制展现出更强的上下文保持能力。

字节跳动推出 UltraMemV2：在低内存访问下，追平8专家MoE性能

可扩展性验证：支持超大规模模型

UltraMemV2 已在 1200亿参数 的大模型中完成验证：

每次推理仅激活 2.5B 参数
激活密度低至约 2%
训练稳定，性能随规模持续提升

更重要的是，实验发现：

激活参数的“质量”和“分布密度”对性能的影响，远大于总稀疏参数数量。

这意味着：通过更智能的检索机制和更高效的值处理，可以用更少的激活实现更好的效果。

应用场景

UltraMemV2 特别适用于以下场景：

✅ 长文本处理

法律合同、科研论文、小说章节等长文档理解与生成
支持跨段落语义关联，避免信息遗忘

✅ 多轮对话系统

在客服、虚拟助手等场景中，持续跟踪用户意图与历史上下文
减少重复提问，提升对话连贯性

✅ 资源受限部署

移动端、边缘设备等内存带宽受限环境
在低功耗下实现高质量推理

✅ 大规模预训练

作为 MoE 的替代架构，用于下一代百亿级以上语言模型
降低训练与推理的基础设施成本

新技术 # UltraMemV2 # 字节跳动

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

多模态框架FakeShield：通过多模态大语言模型评估图像的真实性，用于检测AI及PS图片

多模态框架FakeShield：通过多模态大语言模型评估图像的真实性，用于检测AI及PS图片

新技术 # FakeShield # 多模态框架

1年前

06220

3D重建和生成模型GRM：从稀疏视角的图像中快速重建出3D模型

3D重建和生成模型GRM：从稀疏视角的图像中快速重建出3D模型

新技术 # 3D模型 # GRM

2年前

06950

无需训练的图像编辑技术Stable Flow：执行各种类型的图像编辑操作，包括非刚性编辑、物体添加、物体替换和全局场景编辑

无需训练的图像编辑技术Stable Flow：执行各种类型的图像编辑操作，包括非刚性编辑、物体添加、物体替换和全局场景编辑

新技术 # Stable Flow # 图像编辑

1年前

03990

3D服装生成框架DressCode：根据文本指导生成具有缝纫图案和基于物理渲染（PBR）纹理的服装

3D服装生成框架DressCode：根据文本指导生成具有缝纫图案和基于物理渲染（PBR）纹理的服装

新技术 # 3D服装生成 # DressCode

2年前

09230

暂无评论

none

暂无评论...