Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

354 0

Anthropic在今天推出全新模型Claude 3.7 Sonnet，号称业界首个“混合AI推理模型”。它不仅能实时回答问题，还能像人类一样“深度思考”，提供更精准的答案！用户可以自由选择让模型“思考”的时间长短，无论是快速回复还是深度分析，一个模型搞定，告别繁琐的多模型切换。

地址：https://claude.ai/new

同时，Anthropic还发布了Claude Code，一个代理编码工具，开发者可以通过简单指令修改代码库，甚至直接推送到GitHub，简直是程序员的得力助手。

以下是官方详细介绍：

今天，我们宣布推出Claude 3.7 Sonnet，我们迄今为止最智能的模型，也是市场上首个混合推理模型。Claude 3.7 Sonnet可以产生近乎即时的响应，或者进行扩展的、逐步的思考，这些思考过程对用户是可见的。API用户还可以对模型的思考时长进行细粒度的控制。

Claude 3.7 Sonnet在编码和前端Web开发方面表现出特别强大的改进。除了该模型之外，我们还推出了一个用于代理编码的命令行工具Claude Code。Claude Code以有限的研究预览形式提供，使开发人员能够直接从他们的终端将大量的工程任务委托给Claude。

Claude 3.7 Sonnet现在可以在所有Claude计划（包括免费、Pro、团队和企业）以及Anthropic API、Amazon Bedrock和谷歌云的Vertex AI上使用。订阅用户（包括Pro、团队和企业）可用扩展思考模式。

在标准和扩展思考模式下，Claude 3.7 Sonnet的价格与其前身相同：每百万输入token 3美元，每百万输出token 15美元，其中包括思考token。

Claude 3.7 Sonnet：将前沿推理变为实用

我们开发Claude 3.7 Sonnet的理念与其他市场上的推理模型不同。正如人类使用单一的大脑进行快速响应和深度反思一样，我们认为推理应该是前沿模型的集成能力，而不是完全独立的模型。这种统一的方法也为用户创造了更无缝的体验。

Claude 3.7 Sonnet以多种方式体现了这一理念。首先，Claude 3.7 Sonnet既是普通的LLM，又是推理模型：你可以选择何时让模型正常回答，何时让模型在回答前进行更长时间的思考。在标准模式下，Claude 3.7 Sonnet代表了Claude 3.5 Sonnet的升级版本。在扩展思考模式下，它会在回答前进行自我反思，从而提高其在数学、物理、指令遵循、编码和许多其他任务上的性能。我们通常发现，在这两种模式下，提示模型的工作方式类似。

其次，通过API使用Claude 3.7 Sonnet时，用户还可以控制思考的预算：你可以告诉Claude思考不超过N个token，N的任何值都可以达到其128K token的输出限制。这允许你在速度（和成本）与答案质量之间进行权衡。

第三，在开发我们的推理模型时，我们对数学和计算机科学竞赛问题的优化有所减少，而是将重点转向更好地反映企业实际使用LLM的现实世界任务。

早期测试表明Claude在编码能力方面处于领先地位：Cursor指出，Claude再次成为现实世界编码任务的最佳选择，在处理复杂代码库到高级工具使用等领域都有显著改进。Cognition发现它在规划代码更改和处理全栈更新方面远胜于其他任何模型。Vercel强调了Claude在复杂代理工作流程中的卓越精度，而Replit已成功部署Claude从头开始构建复杂的Web应用程序和仪表板，而其他模型则停滞不前。在Canva的评估中，Claude始终生成具有卓越设计品味和大幅减少错误的生产就绪代码。

Claude 3.7 Sonnet在SWE-bench Verified上实现了最先进的性能，该基准评估AI模型解决现实世界软件问题的能力。

Claude 3.7 Sonnet在TAU-bench上实现了最先进的性能，TAU-bench是一个在复杂的现实世界任务中测试具有用户和工具交互的AI代理的框架。

Claude 3.7 Sonnet在指令遵循、通用推理、多模态能力和代理编码方面表现出色，扩展思考模式在数学和科学方面提供了显著提升。除了传统的基准测试之外，它甚至在我们Pokémon游戏测试中也超越了所有以前的模型。

Claude Code

自2024年6月以来，Sonnet已成为全球开发人员首选的模型。今天，我们通过推出Claude Code（我们的第一个代理编码工具）的有限研究预览，进一步增强开发人员的能力。

Claude Code是一个积极的协作者，可以搜索和读取代码、编辑文件、编写和运行测试、提交和推送代码到GitHub以及使用命令行工具，让你在每个步骤中都了解情况。

Claude Code是一个早期产品，但已经成为我们团队不可或缺的工具，尤其是在测试驱动开发、调试复杂问题和大规模重构方面。在早期测试中，Claude Code在一次通过中完成了通常需要45分钟以上手动工作的任务，从而减少了开发时间和开销。

在接下来的几周内，我们计划根据我们的使用情况不断改进它：增强工具调用可靠性、添加对长时间运行命令的支持、改进应用程序内渲染以及扩展Claude自身对其能力的理解。

我们使用Claude Code的目标是更好地了解开发人员如何使用Claude进行编码，从而为未来的模型改进提供信息。通过参与此预览，你将获得我们用于构建和改进Claude的相同强大工具，并且你的反馈将直接影响其未来。

在你的代码库上使用Claude

我们还改进了Claude.ai上的编码体验。我们的GitHub集成现在可以在所有Claude计划上使用，使开发人员能够将他们的代码存储库直接连接到Claude。

Claude 3.7 Sonnet是我们迄今为止最好的编码模型。通过更深入地了解你的个人、工作和开源项目，它成为一个更强大的合作伙伴，可以修复错误、开发功能以及在你最重要的GitHub项目中构建文档。

负责任的构建

我们对Claude 3.7 Sonnet进行了广泛的测试和评估，并与外部专家合作，以确保其符合我们对安全性、安全性和可靠性的标准。与前身相比，Claude 3.7 Sonnet还能更细致地区分有害和良性请求，从而将不必要的拒绝减少了45%。

此版本的系统卡涵盖了几个类别的新安全结果，详细介绍了我们的责任扩展政策评估，其他AI实验室和研究人员可以将其应用于他们的工作。该卡还解决了计算机使用带来的新兴风险，特别是提示注入攻击，并解释了我们如何评估这些漏洞并训练Claude抵抗和缓解它们。此外，它还研究了推理模型带来的潜在安全益处：了解模型如何做出决策的能力，以及模型推理是否真正值得信赖和可靠。阅读完整的系统卡以了解更多信息。