刚刚，全球首个混合推理模型Claude 3.7降世！最强编程大脑暴击DeepSeek R1

AIGC动态1年前 (2025)发布新智元

原标题：刚刚，全球首个混合推理模型Claude 3.7降世！最强编程大脑暴击DeepSeek R1
文章来源：新智元
内容字数：9092字

Anthropic发布Claude 3.7 Sonnet：混合推理模型引领AI新纪元

Anthropic公司近日重磅发布了其最新的大型语言模型Claude 3.7 Sonnet，这款模型被誉为迄今为止最智能的Claude系列模型，也是全球首个混合推理模型。其核心突破在于结合了两种思考方式：即时响应和逐步扩展思考，显著提升了模型在各个领域的性能。

1. 混合推理：即时与扩展思考的完美结合

Claude 3.7 Sonnet 的独特之处在于它能够根据用户需求，在即时响应和逐步展示详细思考过程（扩展思考模式）之间切换。扩展思考模式下，模型会详细展现其推理步骤，如同人类思考过程一样，极大提升了模型在复杂问题上的解决能力。用户可以通过API精确控制模型的思考时间和token数量，在速度和质量之间取得平衡。

2. 性能显著提升，编码能力尤其突出

在多项基准测试中，Claude 3.7 Sonnet的表现令人瞩目。尤其在数学、物理、指令执行和编程等方面，其性能大幅超越了上一代模型Claude 3.5 Sonnet，数学和编码能力提升超过10%。在编码测试中，它甚至击败了o3-mini和DeepSeek R1等竞争对手，与Grok 3不相上下，在SWE-bench上取得了70.3%的高分，成为名副其实的“软件工程AI”。

3. Claude Code：智能体编程工具的惊艳亮相

除了模型本身的升级，Anthropic还同步发布了智能体编程工具Claude Code（预览版）。该工具能够协助开发者完成大量的工程任务，例如搜索和阅读代码、编辑文件、编写和运行测试、提交代码到GitHub等。在早期测试中，Claude Code甚至能够一次性完类需要45分钟才能完成的任务，大大提升了开发效率。

4. 行为扩展与持续交互能力

Claude 3.7 Sonnet 具备“行为扩展”能力，能够迭代调用函数、响应环境变化，并持续操作直到完成开放式任务。这使得它在与虚拟计算机交互的任务中表现出色，并在OSWorld评估中取得了优异成绩。更令人印象深刻的是，在《口袋妖怪：红》游戏中，它成功挑战并击败了三位道馆馆主，展现了其强大的持续学习和策略调整能力。

5. 串行与并行测试时计算：提升模型性能的关键

Claude 3.7 Sonnet 在扩展思考模式下采用串行测试时计算，通过逐步增加计算资源投入来提升性能。同时，Anthropic也在探索并行测试时计算，通过多个思维过程的采样和选择最佳结果来进一步优化模型性能，在GPQA评估中取得了显著进展。

6. 免费开放，引领AI发展新方向

值得一提的是，Claude 3.7 Sonnet 目前已免费开放，用户可以通过Claude.ai平台、Anthropic API、Amazon Bedrock以及Google Cloud的Vertex AI进行访问。Anthropic此举无疑将进一步推动AI领域的发展，并促进更多创新应用的诞生。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

# AIGC动态 # AI代码生成 # Claude37 # DeepSeekR1 # 最强编程大脑 # 混合推理模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

刚刚，全球首个混合推理模型Claude 3.7降世！最强编程大脑暴击DeepSeek R1

Anthropic发布Claude 3.7 Sonnet：混合推理模型引领AI新纪元

1. 混合推理：即时与扩展思考的完美结合

2. 性能显著提升，编码能力尤其突出

3. Claude Code：智能体编程工具的惊艳亮相

4. 行为扩展与持续交互能力

5. 串行与并行测试时计算：提升模型性能的关键

6. 免费开放，引领AI发展新方向

联系作者

Anthropic 首个“混合推理”模型详细拆解

官方承认系统「作弊」，世界首个「AI CUDA工程师」翻车？o3-mini 11秒发现bug

相关文章

暂无评论