Claude 3.7 Sonnet

AI工具1年前 (2025)更新 AI工具集

Claude 3.7 Sonnet – Anthropic 推出的首款混合推理模型

Claude 3.7 Sonnet 是由 Anthropic 公司开发的全球首款混合推理模型，具备“标准模式”和“扩展思考模式”两种操作方式。标准模式专注于快速生成响应，适用于日常对话和简单任务；而扩展思考模式则通过逐步推理来解决更复杂的问题，尤其在数学、物理和编程领域表现卓越，编码能力更是全面领先。

Claude 3.7 Sonnet是什么

Claude 3.7 Sonnet 是由 Anthropic 公司推出的创新混合推理模型，具有“标准模式”和“扩展思考模式”两种运行方式。在标准模式下，该模型能够迅速提供响应，适合日常交流和简单任务的处理；而在扩展思考模式中，Claude 3.7 Sonnet通过逐步推理来应对复杂问题。该模型在数学、物理和编程等领域表现出色，特别是在编码能力方面，展现了显著的优势。同时，Claude 3.7 Sonnet优化了模型的安全性，显著减少了不必要的拒绝率。用户可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 进行访问。

Claude 3.7 Sonnet

Claude 3.7 Sonnet的主要功能

混合推理模式：
- 标准模式：快速响应，适合日常对话及简单任务。
- 扩展思考模式：深入自我反思与逐步推理，适合处理复杂任务，如数学、物理、逻辑推理和编程。
复杂任务处理能力：在数学、物理和编程等需要强逻辑推理的领域表现卓越，基准测试中成绩优异，如 SWE-bench Verified 和 TAU-bench 测试。
代码协作能力：支持代码编辑、测试执行等开发流程，并与 GitHub 集成，帮助开发者修复 Bug、开发新功能及进行全栈更新。
安全性提升：更准确地区分恶意请求与正常请求，相比前代模型减少不必要的拒绝（减少 45%）。
多平台支持：适用于免费版、专业版、团队版和企业版订阅计划，通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 访问。
灵活的使用方式：用户可在 API 使用中指定思考的 token 数量，输出限制为 128K token。

Claude 3.7 Sonnet的性能表现

推理能力任务表现：
- 在数学、物理、指令执行和编程等任务中，扩展思考模式下的Claude 3.7 Sonnet表现卓越，相比上一代模型提升超过10%。
- SWE-bench：Claude 3.7 Sonnet创下70.3%的高分，刷新了SOTA（State of the Art）记录。
编码能力：
- SWE-bench Verified测试：Claude 3.7 Sonnet在编码能力上显著提升，能够高效解决现实中的软件问题。
多模态和智能体能力：
- OSWorld测试：Claude 3.7 Sonnet可通过虚拟鼠标点击和键盘按键完成相关任务。
- Pokémon 游戏测试：Claude 3.7 Sonnet凭借扩展思考模式和智能体训练获得相应徽章，表现远超早期版本。
测试时计算Scaling：
- 串行测试时计算：在生成最终输出前，执行多个连续推理步骤，计算资源投入持续增加。在数学问题求解中，准确率随着思考Token数量的增加呈对数增长。
- 并行测试时计算：通过采样多个思维过程，选择最佳结果（如多数表决或评分模型），显著提升模型性能。在GPQA测试中，Claude 3.7 Sonnet基于并行计算达到了84.8%的总体得分（物理学部分高达96.5%）。