Mistral AI 宣布开源 Mistral Small 4：119B 参数集推理、编码与多模态于一身的统一模型，推理速度提升 3 倍

20 0

Mistral AI 宣布开源 Mistral Small 4。这不仅仅是一次版本迭代，更是 Mistral 在开源 AI 领域的一次战略级跨越。

Mistral AI 宣布开源 Mistral Small 4：119B 参数集推理、编码与多模态于一身的统一模型，推理速度提升 3 倍

作为 Mistral Small 系列的最新旗舰，Small 4 打破了以往“快速指令”、“深度推理”与“多模态视觉”必须分属不同模型的界限。它首次将 Magistral 的推理深度、Devstral 的代理编码能力以及 Pixtral 的多模态视觉理解完美融合于单一架构之中。

官方介绍：https://mistral.ai/news/mistral-small-4
API：https://mistral.ai/products/studio
模型：https://huggingface.co/collections/mistralai/mistral-small-4

在 Apache 2.0 宽松许可下，这款拥有 1190 亿参数的混合专家模型（MoE）向全球开发者、企业及研究人员完全开放。无论是通过 Mistral API、Hugging Face，还是本地部署的 vLLM 与 llama.cpp，你都可以即刻体验这一兼具速度与智能的全新引擎。

核心突破：统一架构，按需推理

过去，开发者往往需要在“响应速度”与“逻辑深度”之间做取舍，或在处理图像时切换专用模型。Mistral Small 4 终结了这一妥协。

1. 真正的“全能型”选手

Small 4 是一个统一的通用模型，能够根据任务需求动态调整行为：

日常对话与指令：提供毫秒级响应的轻量交互。
复杂逻辑与数学：调用深度推理引擎，逐步拆解难题。
代码代理与开发：具备 Devstral 级别的代码生成、调试与工作流自动化能力。
多模态分析：原生支持文本与图像输入，从文档解析到视觉图表分析一气呵成。

2. 可配置的推理努力度 (`reasoning_effort`)

这是 Small 4 最具创新性的特性之一。用户可通过参数动态控制模型的“思考深度”：

reasoning_effort="none"：极速模式。适用于简单问答、摘要提取等日常任务，追求最低延迟。
reasoning_effort="high"：深度模式。适用于数学证明、复杂代码架构设计或长逻辑链推导，模型将自动进行多步思维链（CoT）推演。

价值主张：无需维护多个模型实例，单一部署即可覆盖从客服聊天到科研辅助的全场景需求，大幅降低基础设施成本。

架构解密：高效能背后的秘密

Mistral Small 4 采用了先进的 混合专家架构 (Mixture of Experts, MoE)，在保持庞大知识容量的同时，实现了极致的运行效率。

架构指标	详细参数	优势解读
总参数量	1190 亿 (119B)	具备旗舰级的知识储备与泛化能力。
激活参数	60 亿 (6B) / Token	每次推理仅激活约 5% 的参数，显著降低计算负载与显存占用。
专家网络	128 个专家	每个 Token 动态路由激活 4 个专家，实现高度专业化分工。
上下文窗口	256k	轻松处理整本小说、超长代码库或数百页的技术文档。
多模态支持	文本 + 图像	原生视觉编码器，无需外挂插件即可理解图表、截图与文档。

这种“大容量、小激活”的设计，使得 Small 4 在保持 GPT-OSS 120B 级别智能的同时，运行成本却远低于同类稠密模型。

性能实测：更快、更准、更省

与上一代 Mistral Small 3 相比，Small 4 在效率与质量上实现了双重飞跃。官方基准测试数据显示：

⏱️ 延迟降低 40%：端到端完成时间大幅缩短，用户体验更加流畅。
📈 吞吐量提升 3 倍：每秒请求数（RPS）翻了三番，高并发场景下的服务能力显著增强。
🎯 输出更精炼：在同等性能下，Small 4 生成的内容更短、更精准。
- AA LCR 基准：Small 4 仅用 1.6K 字符 即获得 0.72 分，而 Qwen 等竞品需 3.5-4 倍的输出量才能达到同等效果。
- LiveCodeBench：性能超越 GPT-OSS 120B，且代码输出量减少 20%，意味着更少的 Token 消耗与更快的生成速度。

这种“短而精”的特性，对于按 Token 计费的 API 用户或关注 GPU 成本的企业而言，直接转化为真金白银的节省。