中国科学院发布“磐石”操作系统与 S1-Base 科学大模型:开启“AI for Science”新范式

大语言模型4个月前发布 小马良
265 0

在AI加速推动科学研究变革的背景下,中国科学院正式推出 “磐石”(ScienceOne) —— 一个面向前沿科学发现与技术创新的“AI+科学”操作系统。作为其核心引擎,磐石科学基础大模型(S1-Base) 同步开源,标志着我国在“AI for Science”领域迈出关键一步。

“磐石”并非传统意义上的操作系统,而是一个集多模态科学理解、知识推理、工具编排与任务规划于一体的智能科研平台。它旨在解决跨学科研究中的共性挑战,为物理、化学、生物、材料、天文、地学等领域的科学家提供一个统一的智能协作环境。

磐石 S1-Base:专为科学而生的多模态大模型

S1-Base 是“磐石”系统的底层大模型,采用“通专融合”设计理念,既具备通用语言理解能力,又深度整合了专业科学知识。

核心能力

  • 多模态科学数据理解:支持对波、谱、场、图像、生物序列等专业数据的语义解析;
  • 科学文献萃取与融合:从海量论文中提取知识,构建动态更新的科学图谱;
  • 科学知识表征与推理:基于物理定律、数学公式和化学规则进行逻辑推导;
  • 科学工具编排与任务规划:自动调用仿真、计算、实验等工具,规划研究路径。

模型架构:异构混合专家系统,智能路由

S1-Base 采用异构混合专家架构(Heterogeneous Mixture of Experts),能够根据用户问题的领域特征,自动“路由”至最合适的子模型:

  • 通用科学问题 → 通用科学大语言模型
  • 光谱分析 → 专用“谱”模型
  • 蛋白质结构预测 → 生物序列专用模型
  • 电磁场仿真 → “场”模型

这种动态调度机制,确保了在保持高效响应的同时,实现领域最优精度

训练基础:1.7亿篇论文与百万级科学推理数据

S1-Base 的训练数据体系极为庞大且专业:

  • 知识来源:依托 1.7 亿篇科研论文构建训练语料库;
  • 推理训练:在 数百万条高质量科学推理数据上进行指令微调;
  • 强化学习:采用多学科复合奖励机制,通过高中、本科至硕博课程式训练策略,逐步提升模型在复杂任务中的表现。

该模型特别强化了对“数理化天地生”六大基础学科核心理论、定律与方法论的理解,具备解决真实科研问题的能力。

开源模型系列:三大参数规模,支持长上下文

本次开源的为 S1-Base 系列中的通用科学大语言模型,共包含三个参数版本,均支持 32k 上下文长度,适用于长文档理解与复杂推理任务。

模型名称基座模型参数量上下文长度
S1-Base-8BQwen3-8B80 亿32k
S1-Base-32BQwen3-32B320 亿32k
S1-Base-671BDeepSeek-R1-671B6710 亿32k

✅ 所有模型均以 Apache 2.0 开源协议发布,可自由用于研究与商业用途。

模型下载

您可通过以下平台获取 S1-Base 系列模型权重:

模型名称Hugging FaceModelScope
S1-Base-8BS1-Base-8BS1-Base-8B
S1-Base-32BS1-Base-32BS1-Base-32B
S1-Base-671BS1-Base-671BS1-Base-671B

应用场景

S1-Base 与“磐石”操作系统可广泛应用于以下科研与工程场景:

  • 科研辅助:自动阅读文献、生成假设、设计实验方案;
  • 交叉学科研究:打通物理、化学、生物等领域的知识壁垒;
  • 教育与培训:作为智能导师,解答复杂科学问题;
  • 工业研发:加速新材料、新药物的设计与筛选;
  • 科学传播:将复杂研究成果转化为通俗易懂的表达。
© 版权声明

相关文章

暂无评论

none
暂无评论...