Anthropic 今日正式发布旗舰级 AI 模型 Claude Opus 4.5,聚焦编程、代理任务与计算机使用场景,凭借多项核心突破重塑行业标杆。该模型不仅在 SWE-bench Verified 编程基准测试中斩获 80.9% 的创纪录得分,超越 Gemini 3.0、GPT-5.1-Codex-Max 等竞品,还实现令牌效率大幅优化、安全能力升级,并同步降低 API 定价,让前沿级 AI 能力更易触达普通用户与企业。

作为 Anthropic 迄今为止最强大的模型,Claude Opus 4.5 已全面登陆 Claude 全平台应用、API 及 Azure、GCP、AWS 三大云服务,同时带来开发者平台、Claude Code 等系列产品更新,覆盖从专业编程到日常办公的多元场景。

核心性能突破:编程与综合能力双领先
- 编程能力登顶全球
Claude Opus 4.5 以 80.9% 的 SWE-bench Verified 得分刷新行业纪录,成为官方宣称的“全球最佳编程模型”。该基准测试聚焦真实世界软件工程任务,模型需独立诊断并修复开源项目中的复杂 Bug,其表现不仅超越主流竞品,更在 Anthropic 内部测试中展现惊人实力——在面向工程候选人的高难度 2 小时带回家作业中,Opus 4.5 的得分高于所有人类候选人(注:测试仅评估技术能力与判断力,不包含协作、沟通等职场核心技能)。 - 综合能力全面升级
除编程外,模型在多领域实现能力跃迁:视觉理解、逻辑推理与数学运算均优于前代及同类产品;在代理任务中表现出创造性问题解决能力,例如在航空服务代理场景中,突破基准预期约束,通过“升级舱位后修改航班”的创新方案解决用户难题;同时在深度研究、幻灯片编辑、电子表格处理等日常任务中,表现显著优于 Sonnet 4.5。

效率与成本优化:令牌更省,门槛更低
- 令牌效率大幅提升
Claude Opus 4.5 优化了推理逻辑,减少回溯、冗余探索与冗长表达,相同任务下令牌消耗显著降低:中等推理努力级别下,以 76% 更少的输出令牌击败 Sonnet 4.5 的 SWE-bench 得分;高推理努力级别下,性能领先 4.3 个百分点的同时,令牌使用量减少 48%,大幅降低用户使用成本。 - API 定价首次下调
为推动普及,Anthropic 降低了 Claude API 的收费标准:Opus 4.5 每百万令牌定价为 5 美元(输入)/25 美元(输出),较前代更具性价比。同时,Max、Team Premium 用户的整体使用限制已上调,Opus 4.5 的令牌配额与此前 Sonnet 持平,支持用户将其用于日常工作场景。 - 新增推理努力参数
效仿 OpenAI 设计,Claude API 新增“推理努力”调节功能,开发者可根据需求自主权衡速度与性能:追求高效时选择低努力级别,节省令牌与时间;处理复杂任务时切换至高努力级别,让模型深度思考以提升准确率。

安全与产品生态:更稳健、更灵活
- 对齐与安全能力再升级
Opus 4.5 是 Anthropic 迄今最稳健的对齐模型,在对抗提示注入攻击方面表现行业领先——能有效抵御黑客插入的欺骗性指令,避免模型执行有害行为,为关键业务场景提供更可靠的安全保障。相关详细评估可参考官方发布的系统卡。 - 开发者平台与工具链更新
- 多代理与上下文管理:支持子代理团队协作,优化长时任务上下文压缩与记忆能力,深度研究类任务性能提升近 15 个百分点;
- Claude Code 升级:新增精准计划模式,执行前自动提出澄清问题并生成可编辑的 plan.md 文件,同时支持桌面端多会话并行运行(如同步修复 Bug、研究 GitHub、更新文档);
- 跨场景适配:Claude for Chrome(浏览器跨标签页任务处理)向所有 Max 用户开放,Claude for Excel beta 版扩展至 Max、Team 及 Enterprise 用户,全面适配办公场景。
- 消费者应用优化
Claude 应用解决了长对话瓶颈问题,可自动总结早期上下文以支持持续聊天;同时移除 Opus 特定使用上限,让用户能更自由地将旗舰模型用于日常交流、内容创作等场景。
实际应用价值:从专业场景到日常办公
Claude Opus 4.5 的核心优势在于“强大且实用”:对开发者而言,其顶尖编程能力可大幅提升 Bug 修复、代码优化效率,令牌成本降低与多代理协作功能进一步降低开发门槛;对企业用户来说,Azure、GCP、AWS 云平台的集成的方便快速部署,安全对齐能力适配关键业务需求;对普通用户而言,Excel、Chrome 等工具的适配让 AI 辅助覆盖数据处理、网页信息整理等办公场景,降价后的 API 也让小型团队与个人开发者能负担得起前沿 AI 能力。
Anthropic 强调,Opus 4.5 的推出是 AI 系统能力的重要里程碑,也是工作方式变革的预览。随着模型在编程、代理、办公等场景的深度渗透,其“更智能、更高效、更安全”的特性,有望重新定义 AI 与人类协作的边界。
目前,Claude Opus 4.5 已开放全面访问,开发者可通过 API 指定模型版本“claude-opus-4-5-20251101”调用,普通用户可直接在 Claude 应用中体验。后续 Anthropic 还将根据用户反馈与技术迭代,持续调整使用限制与功能优化。















