Mistral AI 发布 Magistral Small 1.2:支持视觉输入的小型高效开源推理模型

多模态模型3个月前发布 小马良
199 0

法国AI初创公司 Mistral AI 本周正式发布并开源其小型语言模型的新版本 —— Magistral Small 1.2。该模型在前代基础上全面升级,不仅提升了数学与编程任务的基准表现,还首次引入视觉编码能力,支持图文混合输入,并可在配备 32GB 内存的 MacBook 或单张 RTX 4090 上本地运行。

这一更新标志着开源轻量级多模态推理模型正逐步走向实用化。

模型定位:高效能、可本地部署的推理引擎

Magistral Small 系列的核心目标不是追求参数规模,而是打造一个适合本地运行、具备真实推理能力的小型模型

  • 参数量:240 亿(24B)
  • 上下文长度:最长支持 128K tokens
  • 训练方式:基于 Mistral Small 3.2 架构,结合监督微调(SFT)与强化学习(RL)优化
  • 知识来源:SFT 阶段使用 Magistral Medium 模型在推理过程中生成的思维轨迹作为训练数据

这种“以强带弱”的训练策略,使小模型也能掌握复杂的多步推理模式,在回答前模拟一连串内部思考过程。

相比 1.1 版的主要升级

功能更新说明
✅ 新增视觉编码器支持图像输入,实现文本+图像的多模态理解与推理
📈 性能提升约 15%在数学和代码生成基准测试中显著优于前一版本
🧰 工具调用能力增强可通过插件执行网页搜索、代码运行、图像生成等外部操作
💬 输出更自然清晰回应语气更人性化,LaTeX 与 Markdown 排版更规范
🔁 减少无限生成风险优化解码逻辑,降低陷入循环输出的概率

值得一提的是,尽管性能提升明显,但模型仍保持与前代相同的硬件兼容性要求。

多模态能力详解:从纯文本到“看懂”图片

Magistral Small 1.2 最重要的变化是集成了视觉编码器,使其能够处理以下任务:

  • 分析图表、截图或手绘草图中的信息
  • 根据产品照片回答规格问题
  • 解读数学题中的几何图形并进行推导
  • 结合图文内容生成报告或摘要

该能力源自与 Magistral Medium 1.2 同步的技术迭代。后者也已更新至支持 128K 上下文与视觉输入,形成统一的多模态推理体系。

示例场景:上传一张电路图 + 提问“这个电路的功能是什么?”,模型可结合符号识别与电子知识进行解释。

本地部署友好:MacBook 也能跑

Mistral 强调,Magistral Small 系列专为边缘设备和开发者本地环境优化:

  • 经过量化后,可在 NVIDIA RTX 4090 单卡 上流畅运行;
  • 或部署于 Apple Silicon Mac(M1/M2/M3)且内存 ≥32GB 的机器上;
  • 无需依赖云服务即可完成推理任务。

这对隐私敏感场景(如企业内部知识问答)、离线开发调试、教育用途等具有重要意义。

技术特性一览

🔍 推理机制改进

  • 使用特殊标记 [THINK] 和 [/THINK] 封装内部推理过程;
  • 便于解析思维链路,也防止用户提示中出现相同字符串时产生混淆;
  • 系统提示中预设推理模板,引导模型按步骤思考。

🌍 多语言支持广泛

覆盖 20 余种语言,包括:

  • 主要欧洲语言:英、法、德、西、意、葡、荷、北欧诸语
  • 亚洲语言:中、日、韩、印地语、印尼语、马来语、越南语、阿拉伯语、波斯语、孟加拉语
  • 斯拉夫语系:俄语、乌克兰语、塞尔维亚语、波兰语

适用于跨国团队协作或多语言内容生成。

📏 上下文窗口达 128K

  • 支持超长文档处理,如整本技术手册、法律合同或小说;
  • 官方提示:超过 40K 后性能可能略有下降,但仍能提供合理输出;
  • 建议保持最大长度为 128K,仅在必要时主动限制。
© 版权声明

相关文章

暂无评论

none
暂无评论...