Anthropic 重磅发布 Sonnet 4.6:100 万上下文窗口 + 类人操作电脑,免费用户直接升级

今日,Anthropic 正式发布了 Claude Sonnet 4.6,这是其中型模型系列的最新力作。不仅保持了公司标志性的四个月更新周期,更带来了令人瞩目的性能飞跃:100 万 Token 的超长上下文窗口类人级别的计算机操作能力,以及在编码和逻辑推理上的全面突破。

Anthropic 重磅发布 Sonnet 4.6:100 万上下文窗口 + 类人操作电脑,免费用户直接升级

最令人惊喜的是,Sonnet 4.6 将直接成为 Free(免费)和 Pro 计划用户的默认模型。这意味着,数以百万计的用户无需额外付费,即可立即体验到此前仅限高端模型才具备的强大能力。

核心亮点:小身材,大能量

1. 100 万 Token 上下文窗口(测试版)

Sonnet 4.6 的上下文窗口直接翻倍,达到 100 万 Token

  • 能装下什么? 整个大型代码库、数百页的法律合同、或是数十篇学术研究论文,均可在一次请求中完整输入。
  • 不仅仅是“装得下”:更重要的是,Sonnet 4.6 能有效利用这些海量信息进行推理。在模拟商业经营的 Vending-Bench Arena 测试中,它展现了惊人的长期规划能力:前 10 个月大胆投资扩产,最后阶段果断转向盈利,策略之精妙远超竞争对手。
Anthropic 重磅发布 Sonnet 4.6:100 万上下文窗口 + 类人操作电脑,免费用户直接升级

2. 类人级别的“计算机使用”能力 (Computer Use)

这是 Sonnet 4.6 最激动人心的升级。它不再仅仅是一个聊天机器人,而是一个能像人类一样操作鼠标、敲击键盘、浏览网页的智能代理。

  • 告别定制连接器:对于那些没有 API 的老旧系统或专业软件,Sonnet 4.6 可以直接通过视觉界面进行操作。
  • 实战表现:在 OSWorld 基准测试中,它能独立完成导航复杂电子表格、填写多步网页表单、跨标签页汇总信息等任务。虽然仍不及顶尖人类专家,但其进步速度惊人,已具备极高的实用价值。
  • 安全加固:针对“提示注入”(Prompt Injection)等安全风险,Sonnet 4.6 进行了专门优化,抗攻击能力显著提升,接近 Opus 4.6 水平。

3. 编码与指令遵循的质的飞跃

早期访问的开发者反馈显示,Sonnet 4.6 在编码任务上的表现甚至优于去年 11 月发布的旗舰模型 Opus 4.5

  • 用户偏好:在 Claude Code 中,用户 70% 的时间更倾向于选择 Sonnet 4.6 而非前代 Sonnet 4.5;甚至在 59% 的情况下,用户更喜欢它而不是更昂贵的 Opus 4.5。
  • 改进点:更少“偷懒”(Lazy coding),更少幻觉,更少虚假成功声明。它在修改代码前会更仔细地阅读上下文,倾向于复用共享逻辑而非简单复制,使得长会话体验更加流畅。
  • 设计美学:在前端代码生成上,Sonnet 4.6 展现出了更好的布局感、动画效果和整体设计审美,大幅减少了达到生产质量所需的迭代次数。

基准测试:刷新纪录

Sonnet 4.6 在多项权威基准测试中取得了创纪录的成绩:

  • ARC-AGI-2:得分 60.4%。这项测试旨在衡量特定于人类的智能技能(如抽象推理)。虽然仍略逊于 Opus 4.6、Gemini 3 Deep Think 和 GPT-5.2 精炼版,但作为中型模型,这一分数已远超同类竞品。
  • SWE-Bench(软件工程):刷新记录,展现强大的代码修复与生成能力。
  • OSWorld(计算机使用):大幅领先,证明其在图形界面操作上的成熟度。
Anthropic 重磅发布 Sonnet 4.6:100 万上下文窗口 + 类人操作电脑,免费用户直接升级

性价比之选:Opus 的性能,Sonnet 的价格

Anthropic 明确表示,Sonnet 4.6 的定价与 Sonnet 4.5 保持一致(输入 $3/百万 Token,输出 $15/百万 Token)。

  • 平替旗舰:以前需要 Opus 级别模型才能处理的复杂办公任务、代码重构和多智能体协调,现在 Sonnet 4.6 就能胜任。
  • 适用建议:对于绝大多数日常任务、编码辅助和长文档分析,Sonnet 4.6 是首选。仅在涉及极深推理、极高准确率要求的关键任务时,才建议继续使用 Opus 4.6
Anthropic 重磅发布 Sonnet 4.6:100 万上下文窗口 + 类人操作电脑,免费用户直接升级

生态与产品更新

伴随模型发布,Anthropic 还推出了一系列配套功能:

  • 自适应与扩展思考:支持动态调整推理深度,平衡速度与质量。
  • 上下文压缩(测试版):当对话接近限制时,自动总结旧内容, effectively 延长可用上下文。
  • 智能网络搜索:API 中的搜索工具现在能自动编写和执行代码来过滤结果,只保留高相关信息,极大提升 Token 效率。
  • Excel 插件升级:支持 MCP (Model Context Protocol) 连接器。用户在 Excel 中即可直接调用外部数据源,无需切换窗口,且设置与 Claude.ai 同步。
  • 免费套餐大升级:免费用户现在也能享受文件创建、连接器、技能记忆和上下文压缩等功能。

安全评估

Anthropic 对 Sonnet 4.6 进行了严格的安全评估,结论是其安全性与前代模型相当甚至更优。研究人员评价其具有“普遍热情、诚实、亲社会”的个性,未发现高风险的错位行为。

建议

Sonnet 4.6 的发布,标志着中型模型正式迈入“旗舰级”性能区间。它不仅以极具竞争力的价格提供了强大的编码和推理能力,更通过“计算机使用”功能打开了 AI 代理落地应用的新大门。

对于开发者而言,现在是迁移到 Sonnet 4.6 的最佳时机;对于普通用户,只需打开 Claude,即可免费体验这场智能升级。

立即尝试:登录 claude.ai 或通过 API 调用 claude-sonnet-4-6,见证 AI 的新高度。

© 版权声明

相关文章

暂无评论

none
暂无评论...