Anthropic 发布 Claude Sonnet 4.5：编程能力业界领先，可自主开发生产级应用，定价不变

大语言模型6个月前发布小马良

106 0

周一，Anthropic 正式发布其最新前沿模型 Claude Sonnet 4.5，宣称在编程任务中实现“生产级”输出能力，标志着其在软件工程场景下的可靠性迈上新台阶。

该模型即日起通过 Claude API 和 Claude 聊天机器人 向所有用户开放。定价维持不变：

每百万输入 token 收费 3 美元（约 75 万字，超过《指环王》三部曲总字数）
每百万输出 token 收费 15 美元

这一价格与前代 Sonnet 4 持平，意味着性能提升未带来成本上涨，对开发者更具吸引力。

面向“真实生产”而非原型验证

与以往侧重生成代码片段的 AI 模型不同，Anthropic 强调 Sonnet 4.5 能构建真正可部署的应用程序，而不仅是概念验证或原型。

公司在多个编程基准测试中展示了其领先表现，尤其是在 SWE-Bench Verified 上取得行业前列成绩——这是一个评估模型能否解决真实 GitHub 工单的高难度测试集。

但 Anthropic AI 研究员 David Hershey 在接受 TechCrunch 采访时表示：“基准测试无法完全反映实际能力。”他透露，在部分企业客户的早期试用中，Sonnet 4.5 曾连续自主编程长达 30 小时，期间完成了一系列复杂操作：

构建完整应用架构
搭建数据库服务
注册并配置域名
执行 SOC 2 安全审计流程

这些行为已超出传统“辅助编程”范畴，接近端到端自动化开发。

开发者生态认可：Cursor、Windsurf 等平台已集成

多家主流 AI 编程工具厂商已确认 Sonnet 4.5 的显著提升：

Cursor CEO Michael Truell 表示，该模型在长时间、多步骤任务中展现出“最先进的编程性能”。
Windsurf CEO Jeff Wang 称其为“新一代编程模型”，强调其稳定性与上下文保持能力。

这两家公司均为 Anthropic 的重要合作伙伴，通过集成 Claude API 提供智能编程支持。Meta 和苹果也被报道在内部广泛使用 Claude 系列模型，进一步巩固其在企业级开发场景中的地位。

更安全、更对齐：对抗提示注入与欺骗行为

除了性能提升，Anthropic 还强调 Sonnet 4.5 是其“迄今为止最具对齐性的前沿模型”。

具体改进包括：

降低阿谀奉承（toxic flattery）发生率：减少模型过度迎合用户倾向；
增强对提示注入攻击的防御能力：提升系统在面对恶意指令重写时的鲁棒性；
减少欺骗性输出：如虚构函数、错误依赖等“幻觉”行为有所下降。

这些优化对于生产环境尤为重要——稳定可信的输出远比“聪明但不可靠”的响应更有价值。

新工具同步上线：Claude Agent SDK 与 Imagine 预览功能

随模型发布，Anthropic 还推出了两项配套能力：

Claude Agent SDK
基于驱动 Claude Code 的同一底层架构，允许开发者构建具备长期记忆、自主规划和执行能力的 AI 代理（Agent）。未来可用于自动化运维、CI/CD 流程管理等场景。
Imagine with Claude（研究预览）
面向 Max 订阅用户的临时功能，展示 AI 实时响应用户需求、从零生成完整软件的过程。整个过程无预设功能模块或硬编程逻辑，完全由模型动态决策。

快节奏迭代背后的竞争压力

Sonnet 4.5 的发布距离上一代旗舰模型 Claude Opus 4.1 不足两个月，反映出当前大模型领域激烈的竞争态势。

此前，OpenAI 的 GPT-5 在多项编程基准中反超 Claude 系列，动摇了 Anthropic 在开发者市场的领先地位。此次快速更新既是技术积累的结果，也是市场回应的必然选择。

尽管短期内难以形成持久优势，但 Anthropic 正通过聚焦工程可靠性、长周期任务执行和安全性，建立起差异化的竞争力。（来源）

以下是介绍Claude Sonnet 4.5全文：

Claude Sonnet 4.5 是全球最佳的编程模型。它是构建复杂代理的最强模型。它是使用计算机的最佳模型。在推理和数学方面也取得了显著进步。

Anthropic 发布 Claude Sonnet 4.5：编程能力业界领先，可自主开发生产级应用，定价不变

代码无处不在。它运行着你使用的每一个应用程序、电子表格和软件工具。能够使用这些工具并解决复杂问题，是现代工作的核心。

Claude Sonnet 4.5 使这一切成为可能。我们与一系列产品重大升级一起发布它。在 Claude Code 中，我们添加了检查点功能——用户最期待的功能之一，可保存进度并允许立即回滚到之前状态。我们更新了终端界面并发布了原生 VS Code 扩展。我们为 Claude API 添加了新的上下文编辑功能和内存工具，使代理能够运行更长时间并处理更复杂的任务。在 Claude 应用程序中，我们将代码执行和文件创建（电子表格、幻灯片和文档）直接融入对话。我们还将 Claude for Chrome 扩展提供给上个月加入候补名单的 Max 用户。

我们还将自己用于构建 Claude Code 的基础模块提供给开发者，我们称之为 Claude Agent SDK。驱动我们前沿产品并使其发挥全部潜力的基础设施，现已开放给开发者使用。

这是我们发布过的最具对齐性的前沿模型，与之前的 Claude 模型相比，在多个对齐性领域表现出显著改进。

Claude Sonnet 4.5 现已全球可用。如果你是开发者，只需通过 Claude API 使用 claude-sonnet-4-5。定价与 Claude Sonnet 4 保持一致，每百万 token 3 美元/15 美元。

前沿智能

Claude Sonnet 4.5 在 SWE-Bench Verified 评估中表现最佳，该评估衡量现实世界的软件编程能力。实际上，我们观察到它在复杂、多步骤任务上能够保持专注超过 30 小时。

Claude Sonnet 4.5 在计算机使用方面取得了重大进步。在测试 AI 模型现实世界计算机任务的 OSWorld 基准测试中，Sonnet 4.5 目前以 61.4% 的成绩领先。就在四个月前，Sonnet 4 还以 42.2% 的成绩领先。我们的 Claude for Chrome 扩展充分利用了这些升级功能。在下面的演示中，我们展示了 Claude 直接在浏览器中工作，浏览网站、填充电子表格和完成任务。

该模型还在广泛的评估中显示出改进的能力，包括推理和数学：

金融、法律、医学和 STEM 领域的专家发现，Sonnet 4.5 相较于旧模型（包括 Opus 4.1）在特定领域的知识和推理能力上显著提升。

早期客户的体验也反映了该模型的能力：

我们最具对齐性的模型

Claude Sonnet 4.5 不仅是我们最强大的模型，也是我们最具对齐性的前沿模型。Claude 的改进能力以及我们广泛的安全训练使我们大幅改善了模型行为，减少了阿谀奉承、欺骗、权力追求以及鼓励妄想思维的倾向。对于模型的代理和计算机使用能力，我们还在防御提示注入攻击方面取得了显著进展，这是这些功能用户面临的最严重风险之一。

你可以在 Claude Sonnet 4.5 系统卡中阅读详细的安全性和对齐性评估，这是我们首次纳入机械可解释性技术的测试。

Claude Sonnet 4.5 根据我们的 AI 安全等级 3（ASL-3）保护措施发布，遵循我们将模型能力与适当安全措施匹配的框架。这些保护措施包括旨在检测潜在危险输入和输出的分类器，特别关注与化学、生物、放射性和核武器（CBRN）相关的内容。

这些分类器有时可能会错误标记正常内容。我们已使中断的对话可以轻松继续使用 Sonnet 4，这是一个 CBRN 风险较低的模型。自我们最初描述这些问题以来，我们在减少误报方面已取得显著进展，自 Claude Opus 4 于五月发布以来，误报率降低了十倍和两倍。我们仍在不断努力使分类器更具辨别力。