Apriel-1.5-15B-Thinker：用中期训练提升多模态推理效率

163 0

在大模型竞赛普遍追求参数规模和算力投入的背景下，一个名为 Apriel-1.5-15B-Thinker 的新开源模型带来了不同的思路：它不依赖强化学习或偏好优化，也不从零训练，而是通过精心设计的中期训练流程，在文本与视觉任务上实现了接近顶级闭源模型的表现。

这个 150 亿参数的多模态模型基于 Pixtral-12B 架构扩展而来，已在 MIT 许可下公开发布完整检查点、训练配方和评估协议。它的出现表明：对于资源有限的研究团队来说，更智能的训练策略可能比更大规模更具性价比。

Apriel 的核心理念是：能力应逐步构建，而非一次性堆砌数据与算力。为此，团队采用了三阶段渐进式训练流程：

在已有 Pixtral-12B 模型基础上，通过加深 Transformer 层结构来增强推理能力，而无需全量重新预训练。这种方式降低了计算成本，同时为后续复杂任务打下架构基础。

这是整个流程的关键环节，分为两个子阶段：

通用能力培养
使用多样化的图文对数据集，提升模型对语言和图像的基本理解能力。
针对性合成数据注入
引入人工构造的数据，专门解决多模态中的难点问题：
- 空间结构建模（如页面布局分析）
- 组合语义理解（识别多个对象的关系）
- 细粒度感知（区分细微视觉差异）

这类数据并非随机生成，而是围绕特定推理任务设计，带来了可测量的性能提升。例如，在 MathVerse 视觉数学基准测试中，准确率提升了 +9.65 分。

最后阶段使用精选的指令-响应对进行微调，重点覆盖：

所有样本均包含完整的中间推理步骤（reasoning trajectory），引导模型学会“一步步思考”。值得注意的是，这一过程未使用 RLHF 或人类偏好标注，完全依赖高信号密度的训练数据完成行为对齐。

尽管参数量仅为 15B，Apriel-1.5-15B-Thinker 在多项评测中展现出惊人竞争力：

指标	表现
人工智能分析指数（AI24 Index）	得分 52，与 DeepSeek-R1-0528 相当
文本推理（AIME、GPQA）	在高级数学与硕士级科学问题上表现优异
多模态基准（平均）	距离 Gemini 2.5 Flash 和 Claude Sonnet 3.7 平均仅差 5 分
部署需求	可在单张消费级 GPU 上运行

尤其值得称道的是其在图像相关任务中的表现——通常这类能力需要更大模型和更强算力支撑，但 Apriel 凭借合成数据的精准补强，显著缩小了差距。