Mistral 推出新编码模型 Devstral:开源、轻量、性能超越 GPT-4-mini

法国AI 初创公司 Mistral宣布推出其最新开源模型 —— Devstral,专为软件工程任务设计。该模型由 Mistral 与 AI 公司 All Hands AI 联合开发,采用 Apache 2.0 许可证,可自由用于商业用途。

Mistral 推出新编码模型 Devstral:开源、轻量、性能超越 GPT-4-mini

Mistral 表示,Devstral 在衡量代码能力的权威基准测试 SWE-Bench Verified 上表现优异,大幅领先于其他开源模型,包括 Google 的 Gemma 3 27B 和中国 AI 实验室 DeepSeek 的 V3。

更重要的是,在相同的评估框架下,Devstral 的表现甚至超过了远大于它的闭源模型,例如最新的 GPT-4.1-mini,高出超过 20%。

为什么需要 Devstral?

传统大语言模型(LLM)在处理“单个函数”或“补全一行代码”这样的原子级任务时表现出色,但在面对真实世界的软件工程问题时往往力不从心。

现实中的编程任务通常涉及:

  • 理解大型代码库;
  • 分析模块之间的依赖关系;
  • 定位复杂逻辑中的隐藏 bug;
  • 编写符合上下文规范的新功能。

这些问题对模型的理解深度和推理能力提出了更高要求。

为此,Mistral 推出了 Devstral,一个专门为解决真实 GitHub 问题而训练的代码代理模型。它可以在诸如 OpenHands  SWE-Agent 这样的代码代理框架中运行,并与测试用例进行交互,实现端到端的问题修复流程。

Devstral 的性能表现如何?

Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分,比此前开源模型的最佳成绩提升了 超过 6 个百分点

在同一测试框架下,Devstral 超越了多个参数规模更大的模型,包括:

  • Deepseek-V3-0324(671B 参数)
  • Qwen3 232B-A22B

不仅如此,在跨框架比较中(包含闭源模型),Devstral 的表现也相当亮眼。相比 GPT-4.1-mini,它高出 20% 以上,展现出强大的泛化能力和工程理解能力。

Mistral 推出新编码模型 Devstral:开源、轻量、性能超越 GPT-4-mini

三大使用场景:轻量、灵活、安全

✅ 场景一:本地部署,个人开发者友好

Devstral 非常轻量,可在单块 RTX 4090 显卡 或配备 32GB RAM 的 Mac 上运行。这使得它非常适合本地开发环境使用。

借助如 OpenHands 等平台,Devstral 可以直接与本地代码库交互,快速定位并解决问题。

想亲自试用?可以访问官方提供的 文档 或观看 教程视频

✅ 场景二:企业级私有部署,兼顾隐私与效率

对于需要在内部代码库中执行自动化修复的企业来说,Devstral 提供了一个高性能且合规的选择。尤其适用于对数据隐私和安全性有严格要求的行业。

✅ 场景三:集成至代理编码工具链

如果你正在构建或使用基于 AI 的编码 IDE、插件或环境,Devstral 是一个非常理想的模型选项。它支持多种代理框架,能够无缝接入现有工具链。

如何获取和使用 Devstral?

📦 开源免费下载

Devstral 已在 HuggingFaceOllamaKaggleUnsloth LM Studio 平台上线,开发者可免费下载使用。

⚡️ API 接入(按需)

你也可以通过 Mistral 的 API 使用 Devstral,接口名称为 devstral-small-2505,定价如下:

  • 输入 token:$0.1 / 百万
  • 输出 token:$0.3 / 百万

与 Mistral Small 3.1 相同的价格体系,性价比极高。

🔧 企业定制服务

如果你希望对模型进行微调、蒸馏或将 Devstral 能力迁移至其他系统,Mistral 提供企业级支持服务,可联系团队对接应用 AI 工程师。

© 版权声明

相关文章

暂无评论

none
暂无评论...