Verdent

4周前发布 62 00

面向专业及高级开发者的编程智能体 Verdent 正式上线,该产品在以严格著称的软件工程智能体基准测试 SWE-bench Verified 中,取得 76.1% 的 pass@1 成绩,展现出强劲的现实任务处理能力。目前 Verdent 已推出 Visual Studio Code 扩展和独立应用两种形态,支持接入 Claude Son...

所在地:
美国
收录时间:
2025-11-12

Verdent 是一款编程智能体,已在 SWE-bench Verified 基准测试中获得 76.1% pass@1 的成绩。该基准以严格评估软件工程智能体的实际表现而著称。

产品目前提供两个版本:

  • Visual Studio Code 扩展
  • 独立桌面应用

目标用户为需要处理真实开发任务的专业开发者与高级程序员。

Verdent

基准表现:基于生产版本的实测结果

SWE-bench Verified 的评估方式是:给定一个开源项目的 issue(问题报告),要求AI智能体修复代码并使测试通过。

Verdent 的 76.1% pass@1 指标意味着:

  • 在 100 个测试任务中,它成功修复了 76 个
  • 每个任务仅尝试一次(pass@1),不依赖多次重试
  • 该成绩基于实际发布的生产版本,而非为测试调优的实验版本

作为对比,Claude 3.5 Sonnet 在同一基准上的表现约为 72.3%,GPT-4o 为 68.1%。

技术架构:计划-编码-验证子智能体循环

Verdent 的核心架构包含三个协同工作的子智能体:

  1. 计划智能体
    • 分析 issue 内容与项目上下文
    • 制定修复策略与步骤清单
    • 生成持久化待办事项列表(支持中断后恢复)
  2. 编码智能体
    • 根据计划执行代码修改
    • 调用编辑器 API 进行精确变更
    • 支持并行任务处理(如同时修复多个独立bug)
  3. 验证智能体
    • 自动运行项目测试套件
    • 执行静态代码分析
    • 检查代码风格与安全漏洞

三者在统一循环中协作,直到 issue 修复或达到预设尝试次数上限。

Verdent

功能特性

功能描述
持久任务跟踪生成待办事项清单,记录修复进度,支持长时间中断后恢复
自动验证修改代码后自动运行测试,无需手动触发
静态分析集成 ESLint、SonarQube 等工具,检查代码质量
智能审查代码修改后自动进行同行评审,标记潜在问题
多模型支持可切换 Claude Sonnet 4.5、GPT-4o 等模型,根据任务类型选择
并行处理支持同时处理多个独立 issue,提升效率

模型选择与性能稳定性

Verdent 不绑定单一模型提供商,而是:

  • 支持主流模型:Claude Sonnet 4.5、GPT-4o、Claude Opus、Gemini Pro
  • 模型切换机制:用户可根据任务类型(如算法、前端、数据库)选择最适合的模型
  • 性能监控:实时跟踪各模型在不同任务上的成功率,优化分配策略

这种设计旨在避免单一模型性能波动对开发流程的影响。

商业定位与目标用户

Verdent 定位为:

  • 生产就绪:不追求基准分数,而注重真实开发环境中的稳定性
  • 质量优先:内置审查机制,确保生成代码符合项目规范
  • 透明操作:用户可查看 AI 的思考过程、修改记录与验证结果

目标用户包括:

  • 需要处理复杂 issue 的开源项目维护者
  • 希望自动化常规修复的软件开发团队
  • 需要快速原型构建的独立开发者

早期用户反馈

根据开发者社区的初步试用反馈:

  • 工具集成:VS Code 扩展的安装与使用流程顺畅,与现有工作流兼容
  • 审查功能:内置代码审查机制有效减少了 AI 生成的低质量代码
  • 性能表现:在处理中等复杂度 bug 时,平均修复时间较手动操作缩短 30–40%
  • 稳定性:在连续使用 8 小时的测试中,未出现严重崩溃或数据丢失

部分用户指出,对于涉及复杂架构变更的任务,Verdent 仍需人工干预。

数据统计

相关导航

腾讯云代码助手

腾讯云代码助手

腾讯云代码助手是由腾讯云自研的一款开发编程提效辅助工具,开发者可以通过插件的方式将腾讯云代码助手安装到编辑器中辅助编程工作(VS Code 或者 JetBrians 系列 IDE);而腾讯云代码助手插件将提供:自动补全代码、根据注释生成代码、代码解释、生成测试代码、转换代码语言、技术对话等能力。通过腾讯云代码助手,开发者可以更高效地解决实际编程问题,提高编程效率和代码质量。

暂无评论

none
暂无评论...