智源研究院发布“悟界”大模型系列:覆盖微观生命到具身智能的全栈式AI基座

早报6个月前发布 小马良
202 0

在2025年6月6日第七届北京智源大会上,智源研究院正式发布了“悟界”(WuJie)大模型系列,标志着AI从微观世界建模到宏观物理交互能力的一次全面跃迁。

该系列包括:

  • 原生多模态世界模型 Emu3
  • 脑科学多模态通用基础模型 见微 Brainμ
  • 跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0
  • 全原子微观生命模型 OpenComplex2

“悟界”不仅是一组前沿 AI 技术的集合,更是试图揭示生命机理本质规律,并构建 AI 与物理世界高效交互的新一代智能基座。

  • 官方详细介绍:https://mp.weixin.qq.com/s/clAKUO1EcL9fDw1OqF1Kkw

一、Emu3:原生多模态统一架构的世界模型

Emu3 是首个基于自回归 token 预测范式的原生多模态统一架构,无需依赖扩散模型或组合式架构,即可实现对文本、图像、视频的任意组合理解与生成。(相关:智源研究院推出全新多模态系列模型Emu3

其核心突破在于:

  • 研发新型视觉 tokenizer,将图像/视频编码为与文本同构的离散符号序列;
  • 构建模态无关的统一表征空间;
  • 支持多模态输入输出的端到端映射;
  • 验证了自回归架构在多模态任务中的普适性与先进性。

Emu3 为跨模态交互提供了强大的底层支持,是未来人机交互系统的重要技术底座。

二、见微 Brainμ:脑科学领域的“AlphaFold”

Brainμ 基于 Emu3 架构,首次将 fMRI、EEG、双光子等多种神经信号统一 token 化,实现了跨模态、跨任务、跨个体的神经科学建模。

它具备以下关键能力:

  • 多模态脑信号与文本、图像等模态的多向映射;
  • 支持从基础研究到临床诊断、脑机接口等多个方向;
  • 完成超过 100 万单位神经信号预训练;
  • 在睡眠分型、感官重建、疾病诊断等任务中刷新 SOTA 表现。

作为神经科学领域首个统一建模基础模型,Brainμ 被誉为脑科学的“AlphaFold”,正在与清华大学、北京大学、强脑科技等机构合作推进实际应用落地。

三、RoboOS 2.0 与 RoboBrain 2.0:全球领先的开源具身智能体系

✅ RoboOS 2.0:首个支持 MCE 的跨本体协作框架

RoboOS 2.0 是全球首个支持 MCP(Multi-Center Planning)的开源具身大小脑协作框架,也是首个基于具身智能 SaaS 平台、支持无服务器部署的机器人操作系统。

主要升级包括:

  • 全链路性能提升 30%,响应延迟低至 3ms;
  • 新增多本体时空记忆场景图共享机制;
  • 引入多粒度任务监控模块;
  • 实现小脑技能免适配注册,开发效率提升 10 倍以上。

RoboOS 2.0 正在打造具身智能领域的“应用商店生态”。

✅ RoboBrain 2.0:全球最强开源具身大脑模型

RoboBrain 2.0 是当前最具空间推理与任务规划能力的开源具身大脑模型,显著超越主流大模型表现。

其关键技术亮点包括:

  • 支持多本体协同规划与物理常识驱动的空间推理;
  • 新增闭环反馈机制,实时调整操作策略;
  • 提升 74% 的任务规划准确率;
  • 实现多步空间推理与深度思考能力。

目前,RoboOS 2.0 与 RoboBrain 2.0 已全面开源,助力推动具身智能研究与产业落地。

四、OpenComplex2:生物分子动态建模的革命性突破

OpenComplex2 是全球首个能够捕捉生物分子平衡构象分布的全原子级模型,实现了从静态结构预测到动态演化建模的重大跨越。

其核心技术包括:

  • 基于 FloydNetwork 图扩散框架;
  • 多尺度原子精度表示;
  • 可建模生物分子系统的连续能量景观;
  • 无需先验约束,更真实还原构象多样性。

OpenComplex2 在 CASP16 比赛中成功预测 T1200/T1300 蛋白质构象分布,成为唯一取得突破的团队。

该模型将加速药物设计、功能机制解析等下游应用,推动生物医药研发进入高通量、低成本新阶段。

五、持续构建开源技术生态:FlagOpen 与 FlagOS

智源始终坚持开源开放理念,致力于打造覆盖模型、算法、数据、评测、系统的大模型开源技术体系——FlagOpen

截至当前:

  • 开源模型总量约 200 个;
  • 数据集下载量近 113 万次;
  • 模型全球总下载量超 6.4 亿次;
  • 开源项目代码下载量超 140 万次。

此外,统一 AI 系统软件栈 FlagOS 进一步升级,新增统一编译器 FlagTree、通信库 FlagCX、自动发版工具 FlagRelease,全面支持 18 款异构硬件。

六、开源明星模型持续引领行业

🔹 BGE 系列:全球下载冠军的通用向量模型

BGE 系列已形成完整的多语言、多模态、多任务模型体系,涵盖:

  • BGE-v1 / BGE-M3(文本向量)
  • BGE-code-v1(代码检索)
  • BGE-VL 系列(多模态检索)

2024 年,BGE 成为中国首个登顶 Hugging Face 下载榜的开源模型,并被百度、腾讯、华为、微软等广泛采用。

🔹 Video-XL 系列:长视频理解标杆模型

Video-XL-2 实现单 GPU 处理万帧视频的能力,编码 2048 帧仅需 12 秒,在 MLVU、VideoMME 等评测中领先同类模型。

该模型已在影视分析、行为识别等领域展现广泛应用潜力。

🔹 OmniGen:全能视觉生成模型

OmniGen 采用极简架构,通过提示词即可完成多样化视觉生成任务,GitHub Star 数超 4,000,催生多个创业产品。

© 版权声明

相关文章

暂无评论

none
暂无评论...