Mistral 推出新编码模型 Devstral：开源、轻量、性能超越 GPT-4-mini

395 0

法国AI 初创公司 Mistral宣布推出其最新开源模型 —— Devstral，专为软件工程任务设计。该模型由 Mistral 与 AI 公司 All Hands AI 联合开发，采用 Apache 2.0 许可证，可自由用于商业用途。

Mistral 表示，Devstral 在衡量代码能力的权威基准测试 SWE-Bench Verified 上表现优异，大幅领先于其他开源模型，包括 Google 的 Gemma 3 27B 和中国 AI 实验室 DeepSeek 的 V3。

更重要的是，在相同的评估框架下，Devstral 的表现甚至超过了远大于它的闭源模型，例如最新的 GPT-4.1-mini，高出超过 20%。

为什么需要 Devstral？

传统大语言模型（LLM）在处理“单个函数”或“补全一行代码”这样的原子级任务时表现出色，但在面对真实世界的软件工程问题时往往力不从心。

现实中的编程任务通常涉及：

理解大型代码库；
分析模块之间的依赖关系；
定位复杂逻辑中的隐藏 bug；
编写符合上下文规范的新功能。

这些问题对模型的理解深度和推理能力提出了更高要求。

为此，Mistral 推出了 Devstral，一个专门为解决真实 GitHub 问题而训练的代码代理模型。它可以在诸如 OpenHands 或 SWE-Agent 这样的代码代理框架中运行，并与测试用例进行交互，实现端到端的问题修复流程。

Devstral 的性能表现如何？

Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分，比此前开源模型的最佳成绩提升了 超过 6 个百分点。

在同一测试框架下，Devstral 超越了多个参数规模更大的模型，包括：

Deepseek-V3-0324（671B 参数）
Qwen3 232B-A22B

不仅如此，在跨框架比较中（包含闭源模型），Devstral 的表现也相当亮眼。相比 GPT-4.1-mini，它高出 20% 以上，展现出强大的泛化能力和工程理解能力。

三大使用场景：轻量、灵活、安全

✅ 场景一：本地部署，个人开发者友好

Devstral 非常轻量，可在单块 RTX 4090 显卡 或配备 32GB RAM 的 Mac 上运行。这使得它非常适合本地开发环境使用。

借助如 OpenHands 等平台，Devstral 可以直接与本地代码库交互，快速定位并解决问题。

想亲自试用？可以访问官方提供的文档或观看教程视频。

✅ 场景二：企业级私有部署，兼顾隐私与效率

对于需要在内部代码库中执行自动化修复的企业来说，Devstral 提供了一个高性能且合规的选择。尤其适用于对数据隐私和安全性有严格要求的行业。

✅ 场景三：集成至代理编码工具链

如果你正在构建或使用基于 AI 的编码 IDE、插件或环境，Devstral 是一个非常理想的模型选项。它支持多种代理框架，能够无缝接入现有工具链。

如何获取和使用 Devstral？

📦 开源免费下载

Devstral 已在 HuggingFace、Ollama、Kaggle、Unsloth 和 LM Studio 平台上线，开发者可免费下载使用。

⚡️ API 接入（按需）

你也可以通过 Mistral 的 API 使用 Devstral，接口名称为 devstral-small-2505，定价如下：

输入 token：$0.1 / 百万
输出 token：$0.3 / 百万

与 Mistral Small 3.1 相同的价格体系，性价比极高。

🔧 企业定制服务

如果你希望对模型进行微调、蒸馏或将 Devstral 能力迁移至其他系统，Mistral 提供企业级支持服务，可联系团队对接应用 AI 工程师。

文章版权归作者所有，未经允许请勿转载。

Cohere 重磅开源 Tiny Aya：33 亿参数撬动 70+ 语言，手机离线也能跑的“多语言神器”

大语言模型 # Cohere # Tiny Aya

3周前

0260

MAI-DS-R1：微软团队基于DeepSeek-R1 推理模型进行后训练的版本

大语言模型 # DeepSeek-R1 # MAI-DS-R1 # 微软

11个月前

03230

阿里Qwen团队推出 Qwen3-30B-A3B-Instruct-2507：更强、更准、更懂你

大语言模型 # Qwen3-30B-A3B-Instruct-2507 # Qwen团队

7个月前

08460

LG开源推理模型EXAONE Deep，在数学与编程方面表现出色

大语言模型 # EXAONE Deep # LG # 推理模型

12个月前

02080

暂无评论

暂无评论...

Mistral 推出新编码模型 Devstral：开源、轻量、性能超越 GPT-4-mini

为什么需要 Devstral？

Devstral 的性能表现如何？

三大使用场景：轻量、灵活、安全

✅ 场景一：本地部署，个人开发者友好

✅ 场景二：企业级私有部署，兼顾隐私与效率

✅ 场景三：集成至代理编码工具链

如何获取和使用 Devstral？

📦 开源免费下载

⚡️ API 接入（按需）

🔧 企业定制服务

谷歌推了个能装进手机的大模型Gemma 3n，速度快、内存低、还能听会说

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

相关文章

Cohere 重磅开源 Tiny Aya：33 亿参数撬动 70+ 语言，手机离线也能跑的“多语言神器”

MAI-DS-R1：微软团队基于DeepSeek-R1 推理模型进行后训练的版本

阿里Qwen团队推出 Qwen3-30B-A3B-Instruct-2507：更强、更准、更懂你

LG开源推理模型EXAONE Deep，在数学与编程方面表现出色

暂无评论

文章

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

新型图像到3D框架Unique3D：从单视图图像高效生成高质量的3D网格模型

Anthropic 为“退役”的 Claude 3 Opus 开设 Substack 专栏：全球首个 AI 博客实验，每周发布“退休思考”

S.H.I.T

新QClaw

CoPaw

waoo

新ArkClaw

新WorkBuddy

Mistral 推出新编码模型 Devstral：开源、轻量、性能超越 GPT-4-mini

为什么需要 Devstral？

Devstral 的性能表现如何？

三大使用场景：轻量、灵活、安全

✅ 场景一：本地部署，个人开发者友好

✅ 场景二：企业级私有部署，兼顾隐私与效率

✅ 场景三：集成至代理编码工具链

如何获取和使用 Devstral？

📦 开源免费下载

⚡️ API 接入（按需）

🔧 企业定制服务

谷歌推了个能装进手机的大模型Gemma 3n，速度快、内存低、还能听会说

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

相关文章

文章

标签云

网址

S.H.I.T

新QClaw

CoPaw

waoo

新ArkClaw

新WorkBuddy