字节跳动推出具备长期记忆的多模态智能体 M3-Agent

多模态模型4个月前发布 小马良
220 0

字节跳动 Seed 团队推出新型多模态智能体框架M3-Agent ,首次实现了以实体为中心、支持长期记忆积累的自主推理能力。

不同于传统模型仅依赖即时输入进行响应,M3-Agent 能像人类一样,在持续感知环境中逐步构建和更新记忆,并利用这些记忆完成复杂任务。这一进展为智能体在家庭服务、机器人交互等长期交互场景中的应用提供了新的可能。

字节跳动推出具备长期记忆的多模态智能体 M3-Agent

什么是 M3-Agent?

M3-Agent 是一个集感知、记忆、推理与执行于一体的多模态智能体系统。它能够:

  • 实时处理视频与音频流;
  • 构建并维护长期记忆(包括事件记忆与语义记忆);
  • 基于记忆进行多轮推理;
  • 自主完成用户指令驱动的任务。

例如,在一个家庭环境中,M3-Agent 可通过多次互动记住某位成员的习惯:如果某人每天早晨都会泡咖啡,系统不仅能识别这一行为模式,还能从中抽象出“喜欢咖啡”这一语义知识,并在未来主动提供相关服务。

这种从具体经历中提炼通用知识的能力,是迈向更智能、更自然人机协作的关键一步。

核心功能

1. 多模态感知

实时接入视觉与听觉输入,解析动态环境中的关键信息,如人物动作、物体状态、语音内容等。

2. 长期记忆构建

支持两种类型的记忆:

  • 事件记忆(Episodic Memory):记录特定时间发生的事件,如“昨天小李在厨房煮了面”。
  • 语义记忆(Semantic Memory):从多个事件中提取共性,形成通用知识,如“小李喜欢吃面”。

3. 多轮迭代推理

面对复杂任务时,M3-Agent 可自主发起多步推理过程,每一步均可调用记忆检索、工具查询或外部模型辅助。

4. 任务执行闭环

从接收指令到规划、推理、执行,最终反馈结果,形成完整的任务闭环。

字节跳动推出具备长期记忆的多模态智能体 M3-Agent

关键技术特点

1. 实体为中心的记忆组织

所有记忆围绕“实体”组织,如人、物、地点等。同一人物的面孔、声音、行为、偏好等多模态信息被关联成一个节点,在图结构中统一管理。

这种设计使得系统对环境的理解更具一致性,也便于跨模态信息的融合与检索。

2. 事件记忆 + 语义记忆协同

系统不仅记住“发生了什么”,还能总结“这意味着什么”。例如,多次观察到某人下班后打开电视,可能推导出“此人习惯用电视放松”。

这种双层记忆机制提升了智能体的知识沉淀能力。

3. 强化学习优化推理策略

通过强化学习训练控制模块,让 M3-Agent 在执行任务过程中不断优化其推理路径选择、记忆检索方式和工具调用顺序,从而提高成功率。

工作原理:记忆与控制双通道并行

M3-Agent 的运行分为两个并行流程:

▶ 记忆过程(Memorization)

  • 持续接收视频与音频流;
  • 使用面部识别、语音识别等工具,将感知信息与已有身份绑定;
  • 提取事件片段,生成事件记忆;
  • 抽取共性规律,形成语义记忆;
  • 所有记忆以多模态图结构存储,支持高效检索。

▶ 控制过程(Control)

  • 接收用户指令(如“帮我找昨天看到的那个玩具”);
  • 在长期记忆中搜索相关实体与事件;
  • 进行多轮推理,必要时调用额外工具(如时间过滤、人物确认);
  • 综合信息生成响应或执行动作。

两个过程独立运行、互不干扰,确保系统既能持续学习,又能快速响应任务。

评估基准 M3-Bench:专为长期记忆设计

为了系统评估多模态智能体的长期记忆能力,团队同步推出了 M3-Bench —— 一个专注于长视频理解与记忆推理的评测基准。

数据构成

  • M3-Bench-robot:100 个第一人称视角的真实机器人录制视频,涵盖家庭、办公等日常场景;
  • M3-Bench-web:929 个来自网络的多样化长视频,增强数据广度。

每个样本包含一段长视频及一组开放式问答对,问题设计聚焦以下能力:

  • 对人物行为与偏好的理解;
  • 跨时间、跨模态的信息关联;
  • 从具体事件中归纳通用知识;
  • 在模糊指令下进行合理推理。

这些问题模拟了真实场景中智能体可能面临的挑战,远超简单的目标检测或短期问答。

实验结果:全面超越现有方案

M3-Agent 在多个基准测试中表现优异:

测试集相比最强基线(Gemini-1.5-pro + GPT-4o)提升
M3-Bench-robot+8.2% 准确率
M3-Bench-web+7.7% 准确率
VideoMME-long+5.3% 准确率

特别是在涉及人类行为理解、跨模态推理、长期偏好识别的任务上,M3-Agent 显著优于基于提示工程的传统智能体。

消融实验进一步表明,实体中心化记忆结构强化学习训练机制是性能提升的关键因素。

意义与展望

M3-Agent 的推出,标志着多模态智能体正从“即时反应”向“持续学习”演进。其核心贡献在于:

  • 验证了长期记忆在真实场景任务中的有效性;
  • 提出了一种可扩展的多模态记忆组织方式;
  • 建立了首个面向智能体记忆能力的评测体系(M3-Bench)。

未来,该框架有望应用于家庭陪护机器人、个人数字助理、工业巡检系统等需要长期环境适应的场景。

同时,团队已公开部分数据与方法细节,推动社区在智能体记忆机制方向上的深入探索。

© 版权声明

相关文章

暂无评论

none
暂无评论...