字节跳动 Seed 团队推出新型多模态智能体框架M3-Agent ,首次实现了以实体为中心、支持长期记忆积累的自主推理能力。
- 项目主页:https://m3-agent.github.io
- GitHub:https://github.com/bytedance-seed/m3-agent
- M3-Agent-Memorization:https://huggingface.co/ByteDance-Seed/M3-Agent-Memorization
- M3-Agent-Control:https://huggingface.co/ByteDance-Seed/M3-Agent-Control
不同于传统模型仅依赖即时输入进行响应,M3-Agent 能像人类一样,在持续感知环境中逐步构建和更新记忆,并利用这些记忆完成复杂任务。这一进展为智能体在家庭服务、机器人交互等长期交互场景中的应用提供了新的可能。

什么是 M3-Agent?
M3-Agent 是一个集感知、记忆、推理与执行于一体的多模态智能体系统。它能够:
- 实时处理视频与音频流;
- 构建并维护长期记忆(包括事件记忆与语义记忆);
- 基于记忆进行多轮推理;
- 自主完成用户指令驱动的任务。
例如,在一个家庭环境中,M3-Agent 可通过多次互动记住某位成员的习惯:如果某人每天早晨都会泡咖啡,系统不仅能识别这一行为模式,还能从中抽象出“喜欢咖啡”这一语义知识,并在未来主动提供相关服务。
这种从具体经历中提炼通用知识的能力,是迈向更智能、更自然人机协作的关键一步。
核心功能
1. 多模态感知
实时接入视觉与听觉输入,解析动态环境中的关键信息,如人物动作、物体状态、语音内容等。
2. 长期记忆构建
支持两种类型的记忆:
- 事件记忆(Episodic Memory):记录特定时间发生的事件,如“昨天小李在厨房煮了面”。
- 语义记忆(Semantic Memory):从多个事件中提取共性,形成通用知识,如“小李喜欢吃面”。
3. 多轮迭代推理
面对复杂任务时,M3-Agent 可自主发起多步推理过程,每一步均可调用记忆检索、工具查询或外部模型辅助。
4. 任务执行闭环
从接收指令到规划、推理、执行,最终反馈结果,形成完整的任务闭环。

关键技术特点
1. 实体为中心的记忆组织
所有记忆围绕“实体”组织,如人、物、地点等。同一人物的面孔、声音、行为、偏好等多模态信息被关联成一个节点,在图结构中统一管理。
这种设计使得系统对环境的理解更具一致性,也便于跨模态信息的融合与检索。
2. 事件记忆 + 语义记忆协同
系统不仅记住“发生了什么”,还能总结“这意味着什么”。例如,多次观察到某人下班后打开电视,可能推导出“此人习惯用电视放松”。
这种双层记忆机制提升了智能体的知识沉淀能力。
3. 强化学习优化推理策略
通过强化学习训练控制模块,让 M3-Agent 在执行任务过程中不断优化其推理路径选择、记忆检索方式和工具调用顺序,从而提高成功率。
工作原理:记忆与控制双通道并行
M3-Agent 的运行分为两个并行流程:
▶ 记忆过程(Memorization)
- 持续接收视频与音频流;
- 使用面部识别、语音识别等工具,将感知信息与已有身份绑定;
- 提取事件片段,生成事件记忆;
- 抽取共性规律,形成语义记忆;
- 所有记忆以多模态图结构存储,支持高效检索。
▶ 控制过程(Control)
- 接收用户指令(如“帮我找昨天看到的那个玩具”);
- 在长期记忆中搜索相关实体与事件;
- 进行多轮推理,必要时调用额外工具(如时间过滤、人物确认);
- 综合信息生成响应或执行动作。
两个过程独立运行、互不干扰,确保系统既能持续学习,又能快速响应任务。
评估基准 M3-Bench:专为长期记忆设计
为了系统评估多模态智能体的长期记忆能力,团队同步推出了 M3-Bench —— 一个专注于长视频理解与记忆推理的评测基准。
数据构成
- M3-Bench-robot:100 个第一人称视角的真实机器人录制视频,涵盖家庭、办公等日常场景;
- M3-Bench-web:929 个来自网络的多样化长视频,增强数据广度。
每个样本包含一段长视频及一组开放式问答对,问题设计聚焦以下能力:
- 对人物行为与偏好的理解;
- 跨时间、跨模态的信息关联;
- 从具体事件中归纳通用知识;
- 在模糊指令下进行合理推理。
这些问题模拟了真实场景中智能体可能面临的挑战,远超简单的目标检测或短期问答。
实验结果:全面超越现有方案
M3-Agent 在多个基准测试中表现优异:
| 测试集 | 相比最强基线(Gemini-1.5-pro + GPT-4o)提升 |
|---|---|
| M3-Bench-robot | +8.2% 准确率 |
| M3-Bench-web | +7.7% 准确率 |
| VideoMME-long | +5.3% 准确率 |
特别是在涉及人类行为理解、跨模态推理、长期偏好识别的任务上,M3-Agent 显著优于基于提示工程的传统智能体。
消融实验进一步表明,实体中心化记忆结构和强化学习训练机制是性能提升的关键因素。
意义与展望
M3-Agent 的推出,标志着多模态智能体正从“即时反应”向“持续学习”演进。其核心贡献在于:
- 验证了长期记忆在真实场景任务中的有效性;
- 提出了一种可扩展的多模态记忆组织方式;
- 建立了首个面向智能体记忆能力的评测体系(M3-Bench)。
未来,该框架有望应用于家庭陪护机器人、个人数字助理、工业巡检系统等需要长期环境适应的场景。
同时,团队已公开部分数据与方法细节,推动社区在智能体记忆机制方向上的深入探索。















