上海AI实验室发布 Intern-S1-Pro：万亿参数 MoE 多模态科学推理模型

21 0

上海AI实验室推出 Intern-S1-Pro —— 一款面向科学发现的万亿级混合专家（MoE）多模态大模型。该模型在保持强大通用能力的同时，专为 AI for Science（AI4Science）场景深度优化，在化学、材料科学、生命科学、地球科学等关键领域展现出领先性能。

通过高效稀疏激活，Intern-S1-Pro 在推理时仅调用约 2.2% 的总参数，兼顾了性能与计算效率。

在多个 AI4Science 基准测试中，Intern-S1-Pro 的表现达到或超越当前顶尖闭源模型。
无论是分子性质预测、材料结构生成，还是生物序列分析、气候建模，模型均能进行多步、跨模态、可解释的复杂推理。

除科学任务外，模型在通用图像理解、图文生成、文档解析等标准多模态评测中同样表现强劲，无需牺牲通用性来换取专业性。

采用 STE 路由机制（Sparse Training with Expert-dense gradients）：在路由训练阶段使用稠密梯度，显著加速收敛；
引入 分组路由策略：在专家并行训练中实现负载均衡，提升硬件利用率与训练稳定性。

针对科学数据中常见的高维信号（如光谱、地震波、EEG、遥感影像等），模型引入 傅里叶位置编码（FoPE），使其能：

这一设计让 Intern-S1-Pro 能直接处理原始科学仪器输出，无需繁琐预处理。

研究团队在多个通用数据集和科学数据集上评估了 Intern-S1 的表现，并与近期的视觉语言模型（VLMs）和大语言模型（LLMs）进行了对比，结果如下表所示。

传统大模型在科学任务上常因缺乏领域知识或信号建模能力而受限。Intern-S1-Pro 通过架构创新 + 科学数据对齐 + 高效 MoE 扩展，首次在一个统一模型中实现了：

这标志着 AI4Science 正从“专用工具”迈向“通用智能科研助手”的新阶段。

文章版权归作者所有，未经允许请勿转载。

5个月前

02090

6个月前

03120

3个月前

0320

9个月前

03120

暂无评论

暂无评论...