原标题:刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1
文章来源:新智元
内容字数:9092字
Anthropic发布Claude 3.7 Sonnet:混合推理模型引领AI新纪元
Anthropic公司近日重磅发布了其最新的大型语言模型Claude 3.7 Sonnet,这款模型被誉为迄今为止最智能的Claude系列模型,也是全球首个混合推理模型。其核心突破在于结合了两种思考方式:即时响应和逐步扩展思考,显著提升了模型在各个领域的性能。
1. 混合推理:即时与扩展思考的完美结合
Claude 3.7 Sonnet 的独特之处在于它能够根据用户需求,在即时响应和逐步展示详细思考过程(扩展思考模式)之间切换。扩展思考模式下,模型会详细展现其推理步骤,如同人类思考过程一样,极大提升了模型在复杂问题上的解决能力。用户可以通过API精确控制模型的思考时间和token数量,在速度和质量之间取得平衡。
2. 性能显著提升,编码能力尤其突出
在多项基准测试中,Claude 3.7 Sonnet的表现令人瞩目。尤其在数学、物理、指令执行和编程等方面,其性能大幅超越了上一代模型Claude 3.5 Sonnet,数学和编码能力提升超过10%。在编码测试中,它甚至击败了o3-mini和DeepSeek R1等竞争对手,与Grok 3不相上下,在SWE-bench上取得了70.3%的高分,成为名副其实的“软件工程AI”。
3. Claude Code:智能体编程工具的惊艳亮相
除了模型本身的升级,Anthropic还同步发布了智能体编程工具Claude Code(预览版)。该工具能够协助开发者完成大量的工程任务,例如搜索和阅读代码、编辑文件、编写和运行测试、提交代码到GitHub等。在早期测试中,Claude Code甚至能够一次性完类需要45分钟才能完成的任务,大大提升了开发效率。
4. 行为扩展与持续交互能力
Claude 3.7 Sonnet 具备“行为扩展”能力,能够迭代调用函数、响应环境变化,并持续操作直到完成开放式任务。这使得它在与虚拟计算机交互的任务中表现出色,并在OSWorld评估中取得了优异成绩。更令人印象深刻的是,在《口袋妖怪:红》游戏中,它成功挑战并击败了三位道馆馆主,展现了其强大的持续学习和策略调整能力。
5. 串行与并行测试时计算:提升模型性能的关键
Claude 3.7 Sonnet 在扩展思考模式下采用串行测试时计算,通过逐步增加计算资源投入来提升性能。同时,Anthropic也在探索并行测试时计算,通过多个思维过程的采样和选择最佳结果来进一步优化模型性能,在GPQA评估中取得了显著进展。
6. 免费开放,引领AI发展新方向
值得一提的是,Claude 3.7 Sonnet 目前已免费开放,用户可以通过Claude.ai平台、Anthropic API、Amazon Bedrock以及Google Cloud的Vertex AI进行访问。Anthropic此举无疑将进一步推动AI领域的发展,并促进更多创新应用的诞生。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。