中文比R1丝滑、玩宝可梦还贼溜？全球首个混合推理模型Claude 3.7 Sonnet太惊艳，网友直呼“孤独求败”！

AIGC动态1年前 (2025)发布 AI前线

请问：OpenAI 和谷歌将如何应对？

原标题：中文比R1丝滑、玩宝可梦还贼溜？全球首个混合推理模型Claude 3.7 Sonnet太惊艳，网友直呼“孤独求败”！
文章来源：AI前线
内容字数：8779字

Anthropic发布Claude 3.7 Sonnet：可控思考时间的大模型

本文总结了Anthropic发布的Claude 3.7 Sonnet以及阿里云同步推出的QwQ推理模型系统。Claude 3.7 Sonnet的最大亮点在于允许用户控制模型的“思考时间”，实现了近乎即时响应和长时间逐步思考两种模式，并能在API中进行细粒度控制。

1. Claude 3.7 Sonnet 的核心创新

Claude 3.7 Sonnet将大型语言模型和推理模型合二为一，用户可根据需求选择模型的响应速度。扩展思考模式下，模型通过迭代式调用函数、响应环境变化等方式，显著提升了在数学、物理、指令遵循、编程等领域的性能。Anthropic还开发了“思考预算”机制，用户可控制模型的思考token数量，平衡回答质量、速度和成本。值得注意的是，Anthropic减少了对竞赛类题目的专项优化，转而关注更贴近实际应用场景的任务，尤其在编码和前端网页开发方面取得了显著改进。同时发布的Claude Code命令行工具，进一步提升了开发效率。

2. Anthropic 的推理机制

Anthropic的扩展思考模式并非切换不同模型，而是通过“动作扩展”能力，让同一个模型拥有更多思考时间和计算资源。在启用推理能力时，采用“串行测试时计算”机制，通过增加计算资源实现深度思考。Anthropic也在探索“并行测试时计算”，例如通过多数/投票或自检优化机制来提升性能。

3. Claude 3.7 Sonnet 的性能表现

在扩展思考模式下，Claude 3.7 Sonnet在研究生级推理任务上达到78.2%的准确率，超越了部分竞品。在数学解题和编程方面也表现出色，尤其在SWE-bench Verified编程测试中，其通过率显著高于OpenAI的o1和o3-mini模型以及DeepSeek R1。

4. 用户评价与Claude Code

Hacker News上的用户对Claude 3.7 Sonnet的易用性和在学习和工作中的帮助表示肯定，但也指出了服务稳定性方面的问题。Claude Code团队回应称目前不使用RAG技术，Agentic Search在代码任务中表现更好。

5. 阿里云QwQ推理模型系统的发布

阿里云同步推出了QwQ推理模型系统，基于Qwen2.5-Max模型深度优化，在数学解析、代码生成和智能体开发等领域表现出色。该系统整合了深度推理引擎和实时网络信息检索接口，并支持多种工具的并行调用。未来计划开源模型参数并推出移动端应用。

6. 总结

Anthropic的Claude 3.7 Sonnet和阿里云的QwQ模型系统都代表了大模型推理能力的最新进展，两者在功能和设计理念上各有侧重，未来大模型的竞争将更加激烈，也更值得期待。

联系作者

文章来源：AI前线
作者微信：
作者简介：面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

阅读原文

# AIGC动态 # AI模型丝滑度 # AI模型全球首发 # Claude37Sonnet # 大型语言模型推理能力 # 混合推理模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

中文比R1丝滑、玩宝可梦还贼溜？全球首个混合推理模型Claude 3.7 Sonnet太惊艳，网友直呼“孤独求败”！

请问：OpenAI 和谷歌将如何应对？

Anthropic发布Claude 3.7 Sonnet：可控思考时间的大模型

1. Claude 3.7 Sonnet 的核心创新

2. Anthropic 的推理机制

3. Claude 3.7 Sonnet 的性能表现

4. 用户评价与Claude Code

5. 阿里云QwQ推理模型系统的发布

6. 总结

联系作者

仅靠逻辑题，AI数学竞赛能力飙升！微软、九坤投资：7B小模型也能逼近o3-mini

DeepSeek 等浙大系创业者的组织文化密码是什么？

相关文章

暂无评论