LatentMAS

11小时前发布 1 00

LatentMAS 是一种多智能体推理框架,将智能体协作从 token 空间转移到模型的潜在空间(latent space)。 智能体不再产生长篇文本推理痕迹,而是通过各自的工作记忆传递潜在思想(latent thoughts)进行通信。

所在地:
美国
收录时间:
2025-12-08
LatentMASLatentMAS

普林斯顿大学、伊利诺伊大学厄巴纳-香槟分校与斯坦福大学的研究者近日联合提出一个全新的多智能体推理框架——LatentMAS(Latent Multi-Agent System)。该框架突破了传统多智能体系统依赖自然语言文本交互的限制,首次将协作过程从 token 空间迁移到模型的潜在空间(latent space),显著提升了推理效率与性能。

LatentMAS

为何要跳出文本协作?

在当前主流的基于大语言模型(LLM)的多智能体系统中,智能体之间的协作通常通过生成和解析自然语言完成。例如,一个智能体输出一段解释性的文字,另一个智能体再阅读这段文字继续推理。这种方式看似直观,实则存在明显问题:

  • 信息冗余:复杂推理被压缩成自然语言后,往往丢失细节或引入歧义;
  • 计算开销大:每轮交互都需生成大量 token,拖慢整体速度;
  • 错误累积:文本转译过程可能扭曲原始意图,影响后续决策。

LatentMAS 的核心思路正是规避这些瓶颈:智能体不再“说人话”交流,而是直接在模型内部的潜在表示层面传递“思想”。

LatentMAS 如何工作?

LatentMAS 的关键技术在于利用模型隐藏层的嵌入(hidden embeddings)作为通信媒介,而非输出 token。其工作流程包含以下关键机制:

  1. 自回归潜在思考生成
    每个智能体在推理时,不再解码文本 token,而是从其最后一层隐藏状态中提取“潜在思考”(latent thoughts)。
  2. 共享潜在工作记忆
    这些潜在思考被存储在 KV 缓存(Key-Value cache)中,并可直接传递给其他智能体。后续智能体无需重新编码文本,即可“理解”前者的完整推理状态。
  3. 输入-潜在对齐
    为避免潜在表示与输入嵌入空间分布不一致,框架引入一个轻量级的线性对齐矩阵 ( W_a ),将潜在思考重新映射回模型可接受的输入形式。
  4. 无需额外训练
    整个系统完全免训练(training-free),可直接集成到任意 Hugging Face 模型,也可选用 vLLM 作为推理后端以提升吞吐。

性能表现:快、准、省

研究团队在多个代表性基准上对 LatentMAS 进行了评估,结果如下:

指标提升效果
准确率相比单模型提升 14.6%,相比文本式多智能体提升 2.8%(涵盖数学、科学、代码、常识任务)
推理速度端到端耗时降低 4×–4.3×
Token 消耗系统级 token 使用量减少 70.8%–83.7%

这意味着:在保持甚至提升任务质量的同时,LatentMAS 大幅降低了计算成本与延迟。

LatentMAS

支持的架构与应用场景

LatentMAS 具备高度通用性,适用于多种多智能体拓扑结构,包括顺序式、层次式或混合协作模式。典型应用场景包括:

  • 复杂数学与科学推理(如 GSM8K、AIME、GPQA-Diamond)
  • 多跳常识理解(如 ARC-Challenge)
  • 高质量代码生成(如 MBPP-Plus、HumanEval-Plus)
  • 未来可扩展至多模态任务(例如将视觉特征与语言潜在表示融合)

数据统计

相关导航

暂无评论

none
暂无评论...