问小白开源基于反思型生成范式训练的推理模型XBai o4

大语言模型8个月前发布小马良

235 0

问小白发布了XBai o4，o=open，o4代表其开源的第四代大模型技术。XBai o4在复杂推理能力方面表现出色，在Medium模式下，XBai o4 现已全面超越OpenAI-o3-mini。

GitHub：https://github.com/MetaStone-AI/XBai-o4

问小白开源基于反思型生成范式训练的推理模型XBai o4

XBai o4是基于反思型生成范式训练得到。反思型生成范式是将 “Long-CoT强化学习”与“过程评分学习”融合的训练范式，该范式使单个模型同时具备“深度推理”与“高质量推理链路筛选”的能力。通过共享过程评分和策略模型的主干网络，该范式显著降低了99%的过程评分推理耗时，实现了又快又好的文本回答效果。

问小白开源基于反思型生成范式训练的推理模型XBai o4

模型地址：

Model	Transformers(HF)	ModelScope
XBai o4	XBai-o4	XBai o4

模型性能

Model	AIME24	AIME25	LiveCodeBench v5	C-EVAL
s1-32B	56.7	50.0	-	-
QwQ-32B	79.5	69.5	62.7	88.4
R1-Distill-Qwen-32B	72.6	49.6	54.5	82.2
GLM-Z1-32B-0414	80.8	63.6	-	-
DeepSeek-R1-671B-0120	79.8	70.0	64.3	91.8
Claude-3.5-Sonnet1022	16.0	7.4	40.2	76.7
GPT-4o-0513	9.3	11.6	32.3	-
OpenAI-o1-mini	63.6	50.7	49.4	68.9
OpenAI-o1-1217	79.2	-	63.9	-
OpenAI-o3-mini-medium	79.6	74.8	66.3	75.9
Claude Opus 4	75.7	75.5	61.3	-
Qwen3-32B	81.4	72.9	65.7	87.3
XBai o4-low	82.4	74.8	66.6	89.4
XBai o4-medium	85.4	77.6	67.0	89.5
XBai o4-high	86.5	77.9	67.2	89.7

大语言模型 # XBai o4 # 问小白

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

无损压缩框架DFloat11：可将大语言模型的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出

无损压缩框架DFloat11：可将大语言模型的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出

大语言模型 # DFloat11 # 无损压缩框架

11个月前

03430

瑞士发布国家级开源大模型 Apertus，构建自主可控、合规透明的AI基础设施

瑞士发布国家级开源大模型 Apertus，构建自主可控、合规透明的AI基础设施

大语言模型 # Apertus # 开源大模型 # 瑞士

7个月前

02740

MiroThinker-1.7 系列重磅发布：30B 参数刷新开源 SOTA，打造长链推理新标杆

MiroThinker-1.7 系列重磅发布：30B 参数刷新开源 SOTA，打造长链推理新标杆

大语言模型 # MiroThinker-1.7 # MiroThinker-1.7-mini

3周前

0280

Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

大语言模型 # Anthropic # Claude 3.7 Sonnet # Claude Code

1年前

03540

暂无评论

none

暂无评论...