昆仑万维开源代码模型 Skywork-SWE-32B：用消费级显卡部署 AI 工程师的新可能

大语言模型9个月前发布小马良

340 0

今天，昆仑万维正式宣布开源其最新推出的代码智能体 Skywork-SWE-32B，该模型专为软件工程（SWE）任务设计，在 SWE-bench Verified 基准测试中达到 38.0% 的 pass@1 准确率，并通过扩展策略进一步提升至 47.0%，成为当前同参数规模下性能最强的开源代码代理之一。

模型：https://huggingface.co/Skywork/Skywork-SWE-32B

更重要的是，它让企业使用消费级显卡部署 AI 工程师成为现实，标志着开源生态在对抗闭源大模型巨头的道路上迈出关键一步。

🧠 模型亮点一览

✅ 高性能代码代理：在 SWE-bench Verified 中达到 38.0% pass@1，结合扩展策略可提升至 47.0%
✅ 高效训练数据支持：基于自动化收集构建的高质量 Skywork-SWE 数据集
✅ 数据扩展规律验证：训练数据越多，模型表现越强，尚未见性能饱和趋势
✅ 轻量化部署能力：可在消费级 GPU 上运行，显著降低部署门槛

🔬 技术核心：Skywork-SWE-32B 是什么？

Skywork-SWE-32B 是由昆仑万维开发的一种面向软件工程任务的代码代理模型，基于 Qwen2.5-Coder-32B 构建，并在 OpenHands 框架下进行了深度优化。

它不仅能够理解自然语言指令，还能执行复杂的多轮交互任务，如：

定位代码错误
修改源码文件
执行并验证单元测试

这一切都在模拟一个真实工程师的工作流程，是迈向“AI 工程师”落地的重要一步。

📊 性能表现：超越现有开源模型

模型名称	pass@1 准确率	是否使用验证器/多次 rollout
Qwen2.5-Coder-32B（基线）	~30.0%	否
Skywork-SWE-32B	38.0%	否
Skywork-SWE-32B + 扩展策略	47.0%	否

Skywork-SWE-32B 不仅超越了此前基于 OpenHands 的最佳开源模型 Qwen2.5-Coder-32B，还在不依赖验证器或多次 rollouts 的情况下达到了新的性能高峰。

📁 Skywork-SWE 数据集：支撑模型表现的核心资源

为了训练出真正具备软件工程能力的模型，昆仑万维构建了一套自动化、大规模、可执行的数据整理管道，最终生成了包含 10,169 个真实世界 Python 任务实例的 Skywork-SWE 数据集。

每个任务都配有：

自然语言描述的问题
可执行的运行时环境镜像
单元测试验证机制

这套数据集从 2531 个不同 GitHub 仓库中提取，经过严格的安装验证和执行测试，确保每一项任务都能被准确评估。

🔄 数据整理三阶段流程

A. 数据收集与预过滤

收集 GitHub 仓库元数据，排除已存在于 SWE-Bench 的项目
提取拉取请求（PR），筛选具有明确问题描述与修改记录的任务
验证项目是否可安装运行，过滤不可执行的代码片段

B. 环境设置与执行验证

配置运行命令，例如 pytest 或 unittest
创建 Docker 镜像，标准化运行环境
执行前后测试，验证修复是否有效且无副作用（FAIL_TO_PASS & PASS_TO_PASS）

C. 代理轨迹生成

模拟 LLM 代理与环境的多轮交互
验证生成的修复路径是否成功解决问题
收集成功轨迹用于后续模型微调

📈 数据扩展规律：训练越多，表现越强

通过分析 8209 个训练轨迹，研究人员发现了一个重要现象：

随着训练数据量增加，模型在软件工程任务中的表现持续提升，未出现性能饱和迹象。

这表明，在代码生成与修复领域，数据依然是推动模型进步的关键因素。这也为未来更大规模的 SWE 数据集建设提供了理论依据。

💻 应用前景：AI 工程师离我们更近了

Skywork-SWE-32B 的发布，不仅刷新了开源代码代理模型的性能上限，也带来了实际应用层面的重大突破：

更低部署门槛：可在消费级显卡上运行，无需昂贵的算力资源
更强实用性：支持真实 GitHub 项目的代码修复与测试验证
更广适用性：适用于自动代码生成、CI/CD 流程辅助、开发者辅助工具等多个场景

对于中小型企业和研究团队而言，这意味着可以更快地将 AI 编程助手引入日常开发流程，提升效率，降低成本。

大语言模型 # Skywork-SWE-32B # 代码模型 # 昆仑万维

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

微软发布20亿参数1-bit模型BitNet b1.58，性能超越主流LLM且更适合边缘设备

微软发布20亿参数1-bit模型BitNet b1.58，性能超越主流LLM且更适合边缘设备

大语言模型 # BitNet b1.58 # 微软

11个月前

04840

DeepSeek 发布DeepSeek-V3.2-Exp：首次引入细粒度稀疏注意力，API 成本直降 50%+

DeepSeek 发布DeepSeek-V3.2-Exp：首次引入细粒度稀疏注意力，API 成本直降 50%+

大语言模型 # DeepSeek # DeepSeek-V3.2-Exp

6个月前

01990

英伟达推出小型语言模型 Nemotron-Nano-9B-V2：更小、更快、可控制“思考”的AI

英伟达推出小型语言模型 Nemotron-Nano-9B-V2：更小、更快、可控制“思考”的AI

大语言模型 # Nemotron-Nano-9B-V2 # 英伟达

7个月前

02510

速度提升 25%，支持全栈开发！OpenAI发布GPT-5.3-Codex ：从代码生成到全场景工程智能体，性能与安全双突破

速度提升 25%，支持全栈开发！OpenAI发布GPT-5.3-Codex ：从代码生成到全场景工程智能体，性能与安全双突破

大语言模型 # GPT-5.3-Codex # OpenAI

1个月前

01150

暂无评论

none

暂无评论...