问小白发布了XBai o4,o=open,o4代表其开源的第四代大模型技术。XBai o4在复杂推理能力方面表现出色,在Medium模式下,XBai o4 现已全面超越OpenAI-o3-mini。

XBai o4是基于反思型生成范式训练得到。反思型生成范式是将 “Long-CoT强化学习”与“过程评分学习”融合的训练范式,该范式使单个模型同时具备“深度推理”与“高质量推理链路筛选”的能力。通过共享过程评分和策略模型的主干网络,该范式显著降低了99%的过程评分推理耗时,实现了又快又好的文本回答效果。

模型地址:
| Model | Transformers(HF) | ModelScope |
|---|---|---|
| XBai o4 | XBai-o4 | XBai o4 |
模型性能
| Model | AIME24 | AIME25 | LiveCodeBench v5 | C-EVAL |
|---|---|---|---|---|
| s1-32B | 56.7 | 50.0 | - | - |
| QwQ-32B | 79.5 | 69.5 | 62.7 | 88.4 |
| R1-Distill-Qwen-32B | 72.6 | 49.6 | 54.5 | 82.2 |
| GLM-Z1-32B-0414 | 80.8 | 63.6 | - | - |
| DeepSeek-R1-671B-0120 | 79.8 | 70.0 | 64.3 | 91.8 |
| Claude-3.5-Sonnet1022 | 16.0 | 7.4 | 40.2 | 76.7 |
| GPT-4o-0513 | 9.3 | 11.6 | 32.3 | - |
| OpenAI-o1-mini | 63.6 | 50.7 | 49.4 | 68.9 |
| OpenAI-o1-1217 | 79.2 | - | 63.9 | - |
| OpenAI-o3-mini-medium | 79.6 | 74.8 | 66.3 | 75.9 |
| Claude Opus 4 | 75.7 | 75.5 | 61.3 | - |
| Qwen3-32B | 81.4 | 72.9 | 65.7 | 87.3 |
| XBai o4-low | 82.4 | 74.8 | 66.6 | 89.4 |
| XBai o4-medium | 85.4 | 77.6 | 67.0 | 89.5 |
| XBai o4-high | 86.5 | 77.9 | 67.2 | 89.7 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















