上海AI实验室发布 Intern-S1-Pro:万亿参数 MoE 多模态科学推理模型

上海AI实验室推出 Intern-S1-Pro —— 一款面向科学发现的万亿级混合专家(MoE)多模态大模型。该模型在保持强大通用能力的同时,专为 AI for Science(AI4Science)场景深度优化,在化学、材料科学、生命科学、地球科学等关键领域展现出领先性能。

核心规格

  • 总参数量:1 万亿(1T)
  • 专家数量:512 个
  • 激活机制:每 token 动态激活 8 个专家(激活参数约 22B)
  • 架构类型:稀疏激活的混合专家(MoE)模型

通过高效稀疏激活,Intern-S1-Pro 在推理时仅调用约 2.2% 的总参数,兼顾了性能与计算效率。

上海AI实验室发布 Intern-S1-Pro:万亿参数 MoE 多模态科学推理模型

核心特性

1. 领先的科学推理能力

在多个 AI4Science 基准测试中,Intern-S1-Pro 的表现达到或超越当前顶尖闭源模型
无论是分子性质预测、材料结构生成,还是生物序列分析、气候建模,模型均能进行多步、跨模态、可解释的复杂推理

2. 强大的通用多模态能力

除科学任务外,模型在通用图像理解、图文生成、文档解析等标准多模态评测中同样表现强劲,无需牺牲通用性来换取专业性

3. 高效 MoE 训练架构

  • 采用 STE 路由机制(Sparse Training with Expert-dense gradients):在路由训练阶段使用稠密梯度,显著加速收敛;
  • 引入 分组路由策略:在专家并行训练中实现负载均衡,提升硬件利用率与训练稳定性。

4. 傅里叶位置编码(FoPE) + 时序建模

针对科学数据中常见的高维信号(如光谱、地震波、EEG、遥感影像等),模型引入 傅里叶位置编码(FoPE),使其能:

  • 敏锐捕捉物理信号的频谱特征
  • 统一处理从 10⁰ 到 10⁶ 采样点 的多通道时序信号;
  • 有效建模长程依赖与多尺度动态。

这一设计让 Intern-S1-Pro 能直接处理原始科学仪器输出,无需繁琐预处理。

性能评估

研究团队在多个通用数据集和科学数据集上评估了 Intern-S1 的表现,并与近期的视觉语言模型(VLMs)和大语言模型(LLMs)进行了对比,结果如下表所示。

上海AI实验室发布 Intern-S1-Pro:万亿参数 MoE 多模态科学推理模型

为什么重要?

传统大模型在科学任务上常因缺乏领域知识或信号建模能力而受限。Intern-S1-Pro 通过架构创新 + 科学数据对齐 + 高效 MoE 扩展,首次在一个统一模型中实现了:

  • 专业深度:胜任前沿科研任务;
  • 通用广度:支持日常多模态交互;
  • 工程可行性:通过稀疏激活控制推理成本。

这标志着 AI4Science 正从“专用工具”迈向“通用智能科研助手”的新阶段。

© 版权声明

相关文章

暂无评论

none
暂无评论...