Anthropic发布 Claude Opus 4.1：代理任务、现实世界编码和推理的升级

大语言模型8个月前发布小马良

384 0

Anthropic今天发布了 Claude Opus 4.1，这是对 Claude Opus 4 在代理任务、现实世界编码和推理方面的升级。我们计划在未来几周发布对模型的更大改进。

Claude Opus 4.1 现已对 Claude 付费用户和 Claude Code 开放。它也可在我们的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与 Opus 4 相同。

Claude Opus 4.1

Opus 4.1 将我们的最先进编码性能提升至 SWE-bench Verified 上的 74.5%。它还改进了 Claude 的深入研究和数据分析技能，特别是在细节跟踪和代理搜索方面。

Anthropic发布 Claude Opus 4.1：代理任务、现实世界编码和推理的升级

GitHub 指出，Claude Opus 4.1 相较于 Opus 4 在大多数能力上均有提升，尤其在多文件代码重构方面表现突出。乐天集团（Rakuten Group） 发现 Opus 4.1 擅长在大型代码库中精确定位纠正，而不引入不必要的调整或错误，其团队更倾向于将这种精确性用于日常调试任务。Windsurf 报告称，Opus 4.1 在其初级开发者基准测试上比 Opus 4 提高了约一个标准差，性能提升幅度与从 Sonnet 3.7 到 Sonnet 4 的飞跃相当。

Anthropic发布 Claude Opus 4.1：代理任务、现实世界编码和推理的升级

入门

Anthropic建议所有用户从 Opus 4 升级到 Opus 4.1。如果你是开发者，只需通过 API 使用 claude-opus-4-1-20250805 即可。你还可以查看我们的 系统卡、模型页面、定价页面 和文档以了解更多。

大语言模型 # Anthropic # Claude Opus 4.1

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

AI当售货机老板？ Anthropic的AI智能体Claudius误以为自己是人类

AI当售货机老板？ Anthropic的AI智能体Claudius误以为自己是人类

早报 # Anthropic # Claudius

9个月前

02340

阿里通义实验室开源 WebSailor，登顶 BrowseComp 榜单的网络智能体

阿里通义实验室开源 WebSailor，登顶 BrowseComp 榜单的网络智能体

大语言模型 # WebSailor # 网络智能体 # 阿里通义实验室

9个月前

03030

LiquidAI 发布 LFM2-24B-A2B：240 亿参数 MoE 模型，仅需 20 亿激活即可在 32GB 内存笔记本上流畅运行

LiquidAI 发布 LFM2-24B-A2B：240 亿参数 MoE 模型，仅需 20 亿激活即可在 32GB 内存笔记本上流畅运行

大语言模型 # LFM2-24B-A2B # LiquidAI

1个月前

06740

Block Diffusion：结合了自回归（Autoregressive）和扩散（Diffusion）模型优点的新型语言生成模型

Block Diffusion：结合了自回归（Autoregressive）和扩散（Diffusion）模型优点的新型语言生成模型

大语言模型 # Block Diffusion # 大语言模型

1年前

05590

暂无评论

none

暂无评论...