问小白开源基于反思型生成范式训练的推理模型XBai o4

大语言模型4个月前发布 小马良
125 0

问小白发布了XBai o4,o=open,o4代表其开源的第四代大模型技术。XBai o4在复杂推理能力方面表现出色,在Medium模式下,XBai o4 现已全面超越OpenAI-o3-mini。

问小白开源基于反思型生成范式训练的推理模型XBai o4

XBai o4是基于反思型生成范式训练得到。反思型生成范式是将 “Long-CoT强化学习”与“过程评分学习”融合的训练范式,该范式使单个模型同时具备“深度推理”与“高质量推理链路筛选”的能力。通过共享过程评分和策略模型的主干网络,该范式显著降低了99%的过程评分推理耗时,实现了又快又好的文本回答效果。

问小白开源基于反思型生成范式训练的推理模型XBai o4

模型地址:

ModelTransformers(HF)ModelScope
XBai o4XBai-o4XBai o4

模型性能

ModelAIME24AIME25LiveCodeBench v5C-EVAL
s1-32B56.750.0--
QwQ-32B79.569.562.788.4
R1-Distill-Qwen-32B72.649.654.582.2
GLM-Z1-32B-041480.863.6--
DeepSeek-R1-671B-012079.870.064.391.8
Claude-3.5-Sonnet102216.07.440.276.7
GPT-4o-05139.311.632.3-
OpenAI-o1-mini63.650.749.468.9
OpenAI-o1-121779.2-63.9-
OpenAI-o3-mini-medium79.674.866.375.9
Claude Opus 475.775.561.3-
Qwen3-32B81.472.965.787.3
XBai o4-low82.474.866.689.4
XBai o4-medium85.477.667.089.5
XBai o4-high86.577.967.289.7
© 版权声明

相关文章

暂无评论

none
暂无评论...