在2025年6月6日第七届北京智源大会上,智源研究院正式发布了“悟界”(WuJie)大模型系列,标志着AI从微观世界建模到宏观物理交互能力的一次全面跃迁。
该系列包括:
- 原生多模态世界模型 Emu3
- 脑科学多模态通用基础模型 见微 Brainμ
- 跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0
- 全原子微观生命模型 OpenComplex2
“悟界”不仅是一组前沿 AI 技术的集合,更是试图揭示生命机理本质规律,并构建 AI 与物理世界高效交互的新一代智能基座。
- 官方详细介绍:https://mp.weixin.qq.com/s/clAKUO1EcL9fDw1OqF1Kkw
一、Emu3:原生多模态统一架构的世界模型
Emu3 是首个基于自回归 token 预测范式的原生多模态统一架构,无需依赖扩散模型或组合式架构,即可实现对文本、图像、视频的任意组合理解与生成。(相关:智源研究院推出全新多模态系列模型Emu3)
其核心突破在于:
- 研发新型视觉 tokenizer,将图像/视频编码为与文本同构的离散符号序列;
- 构建模态无关的统一表征空间;
- 支持多模态输入输出的端到端映射;
- 验证了自回归架构在多模态任务中的普适性与先进性。
Emu3 为跨模态交互提供了强大的底层支持,是未来人机交互系统的重要技术底座。

二、见微 Brainμ:脑科学领域的“AlphaFold”
Brainμ 基于 Emu3 架构,首次将 fMRI、EEG、双光子等多种神经信号统一 token 化,实现了跨模态、跨任务、跨个体的神经科学建模。
它具备以下关键能力:
- 多模态脑信号与文本、图像等模态的多向映射;
- 支持从基础研究到临床诊断、脑机接口等多个方向;
- 完成超过 100 万单位神经信号预训练;
- 在睡眠分型、感官重建、疾病诊断等任务中刷新 SOTA 表现。
作为神经科学领域首个统一建模基础模型,Brainμ 被誉为脑科学的“AlphaFold”,正在与清华大学、北京大学、强脑科技等机构合作推进实际应用落地。
三、RoboOS 2.0 与 RoboBrain 2.0:全球领先的开源具身智能体系
✅ RoboOS 2.0:首个支持 MCE 的跨本体协作框架
RoboOS 2.0 是全球首个支持 MCP(Multi-Center Planning)的开源具身大小脑协作框架,也是首个基于具身智能 SaaS 平台、支持无服务器部署的机器人操作系统。
主要升级包括:
- 全链路性能提升 30%,响应延迟低至 3ms;
- 新增多本体时空记忆场景图共享机制;
- 引入多粒度任务监控模块;
- 实现小脑技能免适配注册,开发效率提升 10 倍以上。
RoboOS 2.0 正在打造具身智能领域的“应用商店生态”。
✅ RoboBrain 2.0:全球最强开源具身大脑模型
RoboBrain 2.0 是当前最具空间推理与任务规划能力的开源具身大脑模型,显著超越主流大模型表现。
其关键技术亮点包括:
- 支持多本体协同规划与物理常识驱动的空间推理;
- 新增闭环反馈机制,实时调整操作策略;
- 提升 74% 的任务规划准确率;
- 实现多步空间推理与深度思考能力。
目前,RoboOS 2.0 与 RoboBrain 2.0 已全面开源,助力推动具身智能研究与产业落地。

四、OpenComplex2:生物分子动态建模的革命性突破
OpenComplex2 是全球首个能够捕捉生物分子平衡构象分布的全原子级模型,实现了从静态结构预测到动态演化建模的重大跨越。
其核心技术包括:
- 基于 FloydNetwork 图扩散框架;
- 多尺度原子精度表示;
- 可建模生物分子系统的连续能量景观;
- 无需先验约束,更真实还原构象多样性。
OpenComplex2 在 CASP16 比赛中成功预测 T1200/T1300 蛋白质构象分布,成为唯一取得突破的团队。
该模型将加速药物设计、功能机制解析等下游应用,推动生物医药研发进入高通量、低成本新阶段。
五、持续构建开源技术生态:FlagOpen 与 FlagOS
智源始终坚持开源开放理念,致力于打造覆盖模型、算法、数据、评测、系统的大模型开源技术体系——FlagOpen。
截至当前:
- 开源模型总量约 200 个;
- 数据集下载量近 113 万次;
- 模型全球总下载量超 6.4 亿次;
- 开源项目代码下载量超 140 万次。
此外,统一 AI 系统软件栈 FlagOS 进一步升级,新增统一编译器 FlagTree、通信库 FlagCX、自动发版工具 FlagRelease,全面支持 18 款异构硬件。

六、开源明星模型持续引领行业
🔹 BGE 系列:全球下载冠军的通用向量模型
BGE 系列已形成完整的多语言、多模态、多任务模型体系,涵盖:
- BGE-v1 / BGE-M3(文本向量)
- BGE-code-v1(代码检索)
- BGE-VL 系列(多模态检索)
2024 年,BGE 成为中国首个登顶 Hugging Face 下载榜的开源模型,并被百度、腾讯、华为、微软等广泛采用。
🔹 Video-XL 系列:长视频理解标杆模型
Video-XL-2 实现单 GPU 处理万帧视频的能力,编码 2048 帧仅需 12 秒,在 MLVU、VideoMME 等评测中领先同类模型。
该模型已在影视分析、行为识别等领域展现广泛应用潜力。
🔹 OmniGen:全能视觉生成模型
OmniGen 采用极简架构,通过提示词即可完成多样化视觉生成任务,GitHub Star 数超 4,000,催生多个创业产品。















