Anthropic 重磅发布 Sonnet 4.6：100 万上下文窗口 + 类人操作电脑，免费用户直接升级

大语言模型1个月前发布小马良

20 0

今日，Anthropic 正式发布了 Claude Sonnet 4.6，这是其中型模型系列的最新力作。不仅保持了公司标志性的四个月更新周期，更带来了令人瞩目的性能飞跃：100 万 Token 的超长上下文窗口、类人级别的计算机操作能力，以及在编码和逻辑推理上的全面突破。

Anthropic 重磅发布 Sonnet 4.6：100 万上下文窗口 + 类人操作电脑，免费用户直接升级

最令人惊喜的是，Sonnet 4.6 将直接成为 Free（免费）和 Pro 计划用户的默认模型。这意味着，数以百万计的用户无需额外付费，即可立即体验到此前仅限高端模型才具备的强大能力。

核心亮点：小身材，大能量

1. 100 万 Token 上下文窗口（测试版）

Sonnet 4.6 的上下文窗口直接翻倍，达到 100 万 Token。

能装下什么？ 整个大型代码库、数百页的法律合同、或是数十篇学术研究论文，均可在一次请求中完整输入。
不仅仅是“装得下”：更重要的是，Sonnet 4.6 能有效利用这些海量信息进行推理。在模拟商业经营的 Vending-Bench Arena 测试中，它展现了惊人的长期规划能力：前 10 个月大胆投资扩产，最后阶段果断转向盈利，策略之精妙远超竞争对手。

Anthropic 重磅发布 Sonnet 4.6：100 万上下文窗口 + 类人操作电脑，免费用户直接升级

2. 类人级别的“计算机使用”能力 (Computer Use)

这是 Sonnet 4.6 最激动人心的升级。它不再仅仅是一个聊天机器人，而是一个能像人类一样操作鼠标、敲击键盘、浏览网页的智能代理。

告别定制连接器：对于那些没有 API 的老旧系统或专业软件，Sonnet 4.6 可以直接通过视觉界面进行操作。
实战表现：在 OSWorld 基准测试中，它能独立完成导航复杂电子表格、填写多步网页表单、跨标签页汇总信息等任务。虽然仍不及顶尖人类专家，但其进步速度惊人，已具备极高的实用价值。
安全加固：针对“提示注入”（Prompt Injection）等安全风险，Sonnet 4.6 进行了专门优化，抗攻击能力显著提升，接近 Opus 4.6 水平。

3. 编码与指令遵循的质的飞跃

早期访问的开发者反馈显示，Sonnet 4.6 在编码任务上的表现甚至优于去年 11 月发布的旗舰模型 Opus 4.5。

用户偏好：在 Claude Code 中，用户 70% 的时间更倾向于选择 Sonnet 4.6 而非前代 Sonnet 4.5；甚至在 59% 的情况下，用户更喜欢它而不是更昂贵的 Opus 4.5。
改进点：更少“偷懒”（Lazy coding），更少幻觉，更少虚假成功声明。它在修改代码前会更仔细地阅读上下文，倾向于复用共享逻辑而非简单复制，使得长会话体验更加流畅。
设计美学：在前端代码生成上，Sonnet 4.6 展现出了更好的布局感、动画效果和整体设计审美，大幅减少了达到生产质量所需的迭代次数。

基准测试：刷新纪录

Sonnet 4.6 在多项权威基准测试中取得了创纪录的成绩：

ARC-AGI-2：得分 60.4%。这项测试旨在衡量特定于人类的智能技能（如抽象推理）。虽然仍略逊于 Opus 4.6、Gemini 3 Deep Think 和 GPT-5.2 精炼版，但作为中型模型，这一分数已远超同类竞品。
SWE-Bench（软件工程）：刷新记录，展现强大的代码修复与生成能力。
OSWorld（计算机使用）：大幅领先，证明其在图形界面操作上的成熟度。

Anthropic 重磅发布 Sonnet 4.6：100 万上下文窗口 + 类人操作电脑，免费用户直接升级

性价比之选：Opus 的性能，Sonnet 的价格

Anthropic 明确表示，Sonnet 4.6 的定价与 Sonnet 4.5 保持一致（输入 $3/百万 Token，输出 $15/百万 Token）。

平替旗舰：以前需要 Opus 级别模型才能处理的复杂办公任务、代码重构和多智能体协调，现在 Sonnet 4.6 就能胜任。
适用建议：对于绝大多数日常任务、编码辅助和长文档分析，Sonnet 4.6 是首选。仅在涉及极深推理、极高准确率要求的关键任务时，才建议继续使用 Opus 4.6。

Anthropic 重磅发布 Sonnet 4.6：100 万上下文窗口 + 类人操作电脑，免费用户直接升级

生态与产品更新

伴随模型发布，Anthropic 还推出了一系列配套功能：

自适应与扩展思考：支持动态调整推理深度，平衡速度与质量。
上下文压缩（测试版）：当对话接近限制时，自动总结旧内容， effectively 延长可用上下文。
智能网络搜索：API 中的搜索工具现在能自动编写和执行代码来过滤结果，只保留高相关信息，极大提升 Token 效率。
Excel 插件升级：支持 MCP (Model Context Protocol) 连接器。用户在 Excel 中即可直接调用外部数据源，无需切换窗口，且设置与 Claude.ai 同步。
免费套餐大升级：免费用户现在也能享受文件创建、连接器、技能记忆和上下文压缩等功能。

安全评估

Anthropic 对 Sonnet 4.6 进行了严格的安全评估，结论是其安全性与前代模型相当甚至更优。研究人员评价其具有“普遍热情、诚实、亲社会”的个性，未发现高风险的错位行为。

建议

Sonnet 4.6 的发布，标志着中型模型正式迈入“旗舰级”性能区间。它不仅以极具竞争力的价格提供了强大的编码和推理能力，更通过“计算机使用”功能打开了 AI 代理落地应用的新大门。

对于开发者而言，现在是迁移到 Sonnet 4.6 的最佳时机；对于普通用户，只需打开 Claude，即可免费体验这场智能升级。

立即尝试：登录 claude.ai 或通过 API 调用 claude-sonnet-4-6，见证 AI 的新高度。

大语言模型早报 # Anthropic # Claude Sonnet 4.6 # Sonnet 4.6

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

谷歌NotebookLM 推出视频概述功能，用视觉化方式理解复杂内容

谷歌NotebookLM 推出视频概述功能，用视觉化方式理解复杂内容

早报 # NotebookLM # 视频概述 # 谷歌

8个月前

01550

为了AI的“福祉”？Anthropic 让 Claude 能主动结束有害对话

为了AI的“福祉”？Anthropic 让 Claude 能主动结束有害对话

早报 # Anthropic # Claude

8个月前

04920

谷歌NotebookLM 升级：现在能一键生成视频概述，学习效率再提升

谷歌NotebookLM 升级：现在能一键生成视频概述，学习效率再提升

早报 # NotebookLM # 视频概述 # 谷歌

11个月前

02340

路透社报道，Meta 首款 RISC-V AI 训练芯片启动测试，推动硬件独立性摆脱对英伟达的依赖

路透社报道，Meta 首款 RISC-V AI 训练芯片启动测试，推动硬件独立性摆脱对英伟达的依赖

早报 # AI芯片 # Meta # RISC-V

1年前

02660

暂无评论

none

暂无评论...