Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

大语言模型3个月前发布 小马良
107 0

Anthropic在今天推出全新模型Claude 3.7 Sonnet,号称业界首个“混合AI推理模型”。它不仅能实时回答问题,还能像人类一样“深度思考”,提供更精准的答案!用户可以自由选择让模型“思考”的时间长短,无论是快速回复还是深度分析,一个模型搞定,告别繁琐的多模型切换。

Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

同时,Anthropic还发布了Claude Code,一个代理编码工具,开发者可以通过简单指令修改代码库,甚至直接推送到GitHub,简直是程序员的得力助手。

以下是官方详细介绍:

今天,我们宣布推出Claude 3.7 Sonnet,我们迄今为止最智能的模型,也是市场上首个混合推理模型。Claude 3.7 Sonnet可以产生近乎即时的响应,或者进行扩展的、逐步的思考,这些思考过程对用户是可见的。API用户还可以对模型的思考时长进行细粒度的控制。

Claude 3.7 Sonnet在编码和前端Web开发方面表现出特别强大的改进。除了该模型之外,我们还推出了一个用于代理编码的命令行工具Claude Code。Claude Code以有限的研究预览形式提供,使开发人员能够直接从他们的终端将大量的工程任务委托给Claude。

Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

Claude 3.7 Sonnet现在可以在所有Claude计划(包括免费、Pro、团队和企业)以及Anthropic APIAmazon Bedrock和谷歌云的Vertex AI上使用。订阅用户(包括Pro、团队和企业)可用扩展思考模式。

在标准和扩展思考模式下,Claude 3.7 Sonnet的价格与其前身相同:每百万输入token 3美元,每百万输出token 15美元,其中包括思考token。

Claude 3.7 Sonnet:将前沿推理变为实用

我们开发Claude 3.7 Sonnet的理念与其他市场上的推理模型不同。正如人类使用单一的大脑进行快速响应和深度反思一样,我们认为推理应该是前沿模型的集成能力,而不是完全独立的模型。这种统一的方法也为用户创造了更无缝的体验。

Claude 3.7 Sonnet以多种方式体现了这一理念。首先,Claude 3.7 Sonnet既是普通的LLM,又是推理模型:你可以选择何时让模型正常回答,何时让模型在回答前进行更长时间的思考。在标准模式下,Claude 3.7 Sonnet代表了Claude 3.5 Sonnet的升级版本。在扩展思考模式下,它会在回答前进行自我反思,从而提高其在数学、物理、指令遵循、编码和许多其他任务上的性能。我们通常发现,在这两种模式下,提示模型的工作方式类似。

其次,通过API使用Claude 3.7 Sonnet时,用户还可以控制思考的预算:你可以告诉Claude思考不超过N个token,N的任何值都可以达到其128K token的输出限制。这允许你在速度(和成本)与答案质量之间进行权衡。

第三,在开发我们的推理模型时,我们对数学和计算机科学竞赛问题的优化有所减少,而是将重点转向更好地反映企业实际使用LLM的现实世界任务。

早期测试表明Claude在编码能力方面处于领先地位:Cursor指出,Claude再次成为现实世界编码任务的最佳选择,在处理复杂代码库到高级工具使用等领域都有显著改进。Cognition发现它在规划代码更改和处理全栈更新方面远胜于其他任何模型。Vercel强调了Claude在复杂代理工作流程中的卓越精度,而Replit已成功部署Claude从头开始构建复杂的Web应用程序和仪表板,而其他模型则停滞不前。在Canva的评估中,Claude始终生成具有卓越设计品味和大幅减少错误的生产就绪代码。

Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

Claude 3.7 Sonnet在SWE-bench Verified上实现了最先进的性能,该基准评估AI模型解决现实世界软件问题的能力。

Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

Claude 3.7 Sonnet在TAU-bench上实现了最先进的性能,TAU-bench是一个在复杂的现实世界任务中测试具有用户和工具交互的AI代理的框架。

Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

Claude 3.7 Sonnet在指令遵循、通用推理、多模态能力和代理编码方面表现出色,扩展思考模式在数学和科学方面提供了显著提升。除了传统的基准测试之外,它甚至在我们Pokémon游戏测试中也超越了所有以前的模型。

Claude Code

自2024年6月以来,Sonnet已成为全球开发人员首选的模型。今天,我们通过推出Claude Code(我们的第一个代理编码工具)的有限研究预览,进一步增强开发人员的能力。

Claude Code是一个积极的协作者,可以搜索和读取代码、编辑文件、编写和运行测试、提交和推送代码到GitHub以及使用命令行工具,让你在每个步骤中都了解情况。

Claude Code是一个早期产品,但已经成为我们团队不可或缺的工具,尤其是在测试驱动开发、调试复杂问题和大规模重构方面。在早期测试中,Claude Code在一次通过中完成了通常需要45分钟以上手动工作的任务,从而减少了开发时间和开销。

在接下来的几周内,我们计划根据我们的使用情况不断改进它:增强工具调用可靠性、添加对长时间运行命令的支持、改进应用程序内渲染以及扩展Claude自身对其能力的理解。

我们使用Claude Code的目标是更好地了解开发人员如何使用Claude进行编码,从而为未来的模型改进提供信息。通过参与此预览,你将获得我们用于构建和改进Claude的相同强大工具,并且你的反馈将直接影响其未来。

在你的代码库上使用Claude

我们还改进了Claude.ai上的编码体验。我们的GitHub集成现在可以在所有Claude计划上使用,使开发人员能够将他们的代码存储库直接连接到Claude。

Claude 3.7 Sonnet是我们迄今为止最好的编码模型。通过更深入地了解你的个人、工作和开源项目,它成为一个更强大的合作伙伴,可以修复错误、开发功能以及在你最重要的GitHub项目中构建文档。

负责任的构建

我们对Claude 3.7 Sonnet进行了广泛的测试和评估,并与外部专家合作,以确保其符合我们对安全性、安全性和可靠性的标准。与前身相比,Claude 3.7 Sonnet还能更细致地区分有害和良性请求,从而将不必要的拒绝减少了45%。

此版本的系统卡涵盖了几个类别的新安全结果,详细介绍了我们的责任扩展政策评估,其他AI实验室和研究人员可以将其应用于他们的工作。该卡还解决了计算机使用带来的新兴风险,特别是提示注入攻击,并解释了我们如何评估这些漏洞并训练Claude抵抗和缓解它们。此外,它还研究了推理模型带来的潜在安全益处:了解模型如何做出决策的能力,以及模型推理是否真正值得信赖和可靠。阅读完整的系统卡以了解更多信息。

展望未来

Claude 3.7 Sonnet和Claude Code标志着能够真正增强人类能力的AI系统迈出了重要一步。凭借其深入推理、自主工作和有效协作的能力,它们使我们更接近AI丰富和扩展人类成就的未来。

Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

我们很高兴你能探索这些新功能,并期待看到你用它们创造出什么。与往常一样,我们欢迎你的反馈,我们将继续改进和发展我们的模型。

© 版权声明

相关文章

暂无评论

none
暂无评论...