中文比R1丝滑、玩宝可梦还贼溜?全球首个混合推理模型Claude 3.7 Sonnet太惊艳,网友直呼“孤独求败”!

请问:OpenAI 和谷歌将如何应对?

中文比R1丝滑、玩宝可梦还贼溜?全球首个混合推理模型Claude 3.7 Sonnet太惊艳,网友直呼“孤独求败”!

原标题:中文比R1丝滑、玩宝可梦还贼溜?全球首个混合推理模型Claude 3.7 Sonnet太惊艳,网友直呼“孤独求败”!
文章来源:AI前线
内容字数:8779字

Anthropic发布Claude 3.7 Sonnet:可控思考时间的大模型

本文总结了Anthropic发布的Claude 3.7 Sonnet以及阿里云同步推出的QwQ推理模型系统。Claude 3.7 Sonnet的最大亮点在于允许用户控制模型的“思考时间”,实现了近乎即时响应和长时间逐步思考两种模式,并能在API中进行细粒度控制。

1. Claude 3.7 Sonnet 的核心创新

Claude 3.7 Sonnet将大型语言模型和推理模型合二为一,用户可根据需求选择模型的响应速度。扩展思考模式下,模型通过迭代式调用函数、响应环境变化等方式,显著提升了在数学、物理、指令遵循、编程等领域的性能。Anthropic还开发了“思考预算”机制,用户可控制模型的思考token数量,平衡回答质量、速度和成本。值得注意的是,Anthropic减少了对竞赛类题目的专项优化,转而关注更贴近实际应用场景的任务,尤其在编码和前端网页开发方面取得了显著改进。同时发布的Claude Code命令行工具,进一步提升了开发效率。

2. Anthropic 的推理机制

Anthropic的扩展思考模式并非切换不同模型,而是通过“动作扩展”能力,让同一个模型拥有更多思考时间和计算资源。在启用推理能力时,采用“串行测试时计算”机制,通过增加计算资源实现深度思考。Anthropic也在探索“并行测试时计算”,例如通过多数/投票或自检优化机制来提升性能。

3. Claude 3.7 Sonnet 的性能表现

在扩展思考模式下,Claude 3.7 Sonnet在研究生级推理任务上达到78.2%的准确率,超越了部分竞品。在数学解题和编程方面也表现出色,尤其在SWE-bench Verified编程测试中,其通过率显著高于OpenAI的o1和o3-mini模型以及DeepSeek R1。

4. 用户评价与Claude Code

Hacker News上的用户对Claude 3.7 Sonnet的易用性和在学习和工作中的帮助表示肯定,但也指出了服务稳定性方面的问题。Claude Code团队回应称目前不使用RAG技术,Agentic Search在代码任务中表现更好。

5. 阿里云QwQ推理模型系统的发布

阿里云同步推出了QwQ推理模型系统,基于Qwen2.5-Max模型深度优化,在数学解析、代码生成和智能体开发等领域表现出色。该系统整合了深度推理引擎和实时网络信息检索接口,并支持多种工具的并行调用。未来计划开源模型参数并推出移动端应用。

6. 总结

Anthropic的Claude 3.7 Sonnet和阿里云的QwQ模型系统都代表了大模型推理能力的最新进展,两者在功能和设计理念上各有侧重,未来大模型的竞争将更加激烈,也更值得期待。


联系作者

文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...