Surya:NASA与IBM联合推出日球物理学AI基础模型,3.66亿参数开源可微调

大语言模型4个月前更新 小马良
203 0

由NASA、IBM及合作伙伴联合开发的Surya,是全球首个面向日球物理学的开源AI基础模型。该模型拥有3.66亿参数,基于NASA太阳动力学天文台(SDO)9年的多仪器观测数据(约218TB)预训练,能学习具备物理感知的通用太阳表征,在太阳耀斑预测、空间天气分析等任务中表现领先,目前已开源至Hugging Face,供全球科研人员使用。

核心定位:日球物理学的“通用AI底座”

Surya并非针对单一太阳观测任务设计,而是通过海量数据学习太阳活动的通用规律,为多类日球物理研究提供基础模型支撑:

  • 学科适配:专注日球物理学领域,填补该领域“通用AI基础模型”的空白,改变传统“任务专用模型”需重复开发的现状;
  • 核心价值:将AI能力与太阳物理研究结合,助力科学家更高效理解太阳活动、精准预测空间天气——这对保护卫星、电网、通信系统及保障宇航员安全至关重要;
  • 开源属性:完整开放模型权重、配置文件及数据预处理流程,确保研究可复现性,全球科研机构、初创企业均可免费下载、微调。
Surya:NASA与IBM联合推出日球物理学AI基础模型,3.66亿参数开源可微调

关键技术:数据、架构与能力亮点

Surya的性能优势源于“大规模高质量数据”“创新架构设计”与“灵活的功能特性”,具体可从三方面解析:

1. 数据基础:9年SDO全分辨率多仪器数据

模型预训练数据来自NASA太阳动力学天文台(SDO),覆盖近一个完整太阳活动周期(2010–2019),数据规模与质量达到领域领先:

  • 多仪器覆盖:包含AIA(大气成像组件,8个观测通道)与HMI(日震与磁场成像仪,5个产品通道),共13个通道数据,全面捕捉太阳大气、磁场等关键信息;
  • 全分辨率处理:原生支持4096×4096像素分辨率,时间间隔12分钟,保留太阳活动的细节特征,避免低分辨率导致的信息丢失;
  • 数据体量:总数据量约218TB,经过标准化处理,可直接用于机器学习训练,降低科研人员数据预处理成本。

2. 架构设计:频谱门控+长-短程注意力,兼顾细节与全局

采用时空变换器架构,融合两项核心技术,高效建模太阳活动的动态规律:

  • 频谱门控(Spectral Gating):通过频域滤波技术,筛选太阳活动数据中的关键频率信息,减少冗余噪声干扰;
  • 长-短程注意力机制:既能捕捉太阳表面局部细节(如活动区纹理),又能关联全局动态(如太阳风传播趋势),避免传统模型“顾局部失全局”的问题。

3. 核心能力特性:零样本+灵活微调,适配多场景

  • 零样本能力:无需额外训练,即可直接用于太阳动态预测、耀斑事件识别等任务,降低快速验证研究假设的门槛;
  • LoRA微调支持:支持参数高效的LoRA(低秩适应)技术,科研人员可针对特定任务(如某类太阳耀斑预测)微调模型,无需全量训练,节省计算资源;
  • 长时预测能力:预训练目标包含“1小时前预测”与“最长12小时自回归滚动调优”,可支持中短期空间天气预测需求。
Surya:NASA与IBM联合推出日球物理学AI基础模型,3.66亿参数开源可微调

应用场景:四大核心任务,性能超越传统方案

Surya可通过微调适配多类日球物理与空间天气任务,且在关键指标上超越现有基准,具体表现如下:

应用场景核心能力性能亮点
太阳耀斑预测24小时内M/X级耀斑二分类性能超越现有基准15%
太阳风预测下游微调后预测太阳风速变化表现优于传统物理模型
活动区分割识别并分割太阳表面活动区(如黑子群)IoU(交并比)达0.768,Dice系数达0.853,优于基线UNet模型
EUV光谱建模预测太阳极紫外(EUV)光谱变化光谱预测准确性高,可支撑太阳大气成分分析
© 版权声明

相关文章

暂无评论

none
暂无评论...