Claude Opus 4.6

Claude Opus 4.6 – Anthropic推出的最新编程AI模型

Anthropic 隆重推出了其旗舰级人工智能模型 Claude Opus 4.6，标志着人工智能能力迈出了重要一步。这款新模型是广受欢迎的 Claude Opus 4.5 的重大升级版，其核心亮点在于首次引入了惊人的 100 万 token 超长上下文窗口。凭借这一突破性的特性，Opus 4.6 在编程、复杂推理和处理海量信息方面的表现均实现了全面超越。

Claude Opus 4.6 概述

Claude Opus 4.6 不仅仅是前代的迭代，更是一次范式上的飞跃。它凭借 100 万 token 的上下文处理能力，在多个关键基准测试中树立了新标杆，例如在 Terminal-Bench 2.0 和 Humanity’s Last Exam 等测试中刷新了纪录。更引人注目的是，它在 GDPval-AA 评分中以 144 个 Elo 分的巨大优势超越了 GPT-5.2。Opus 4.6 引入了如“自适应思考”和“上下文压缩”等创新功能，使其能够自主执行财务分析、代码审查和深度文档处理等企业级任务，预示着 AI 正从单纯的工具演变为更具自主性的智能体。

核心功能亮点

无与伦比的上下文处理能力：Opus 4.6 首次将上下文窗口扩展至 100 万 token，有效根治了大型模型常见的“上下文遗忘”顽疾。在 MRCR v2 测试中，其准确率高达 76%，与前代模型 18.5% 的表现形成鲜明对比。
智能化的自适应思考：模型能够根据任务的复杂程度动态调整其推理深度。用户可以设定 low、medium、high、max 四个档位，从而在输出质量、响应速度和运行成本之间实现精妙的权衡。
革新的上下文压缩技术：为了维持长时间的对话或任务连续性，模型会自动将旧的对话历史提炼成摘要，为新输入腾出宝贵的上下文空间，避免因信息过载而中断任务。
强大的企业级执行力：Opus 4.6 能完成财务建模、法律文件研读、报告撰写乃至电子表格和演示文稿的制作。其在 GDPval-AA 上的卓越表现（超越 GPT-5.2 约 144 Elo 分）充分证明了其在实际工作场景中的价值。
顶尖的编程与代码审查能力：在 Terminal-Bench 2.0 智能体编码评估中夺魁，Opus 4.6 精于代码审查、多语言开发和大型代码库的维护，能够维持长时间、高度自主的软件工程工作流。
卓越的联网信息检索：该模型在 BrowseComp 测试中表现优异，擅长从网络中搜寻隐秘信息，并结合其庞大的上下文窗口对检索到的海量网络资料进行深度推理。
无缝的办公套件集成：通过 Claude in Excel 和 Claude in PowerPoint 插件，Opus 4.6 直接嵌入办公环境，可编辑数据透视表、修改图表、读取幻灯片母版并确保品牌风格的一致性。
优化的安全与对齐性：在自动化行为审计中，Opus 4.6 展现出极低的误导、谄媚和过度拒绝率，其整体安全配置文件与 Claude Opus 4.5 旗鼓相当或更胜一筹，是当前业界对齐性最前沿的模型之一。

性能指标的量化突破

智能体编码：在 Terminal-Bench 2.0 智能体编码评估中，Opus 4.6 斩获 65.4% 的成绩，领跑所有同类模型。
复杂推理：在考验多学科深层推理的 Humanity’s Last Exam 测试中，Opus 4.6 明显领先于所有其他尖端模型。
真实知识工作：其在 GDPval-AA 真实知识工作任务评估中获得了 1606 Elo 分，比 GPT-5.2 高出约 144 分，比前代 Opus 4.5 则高出 190 分。
网络检索：Opus 4.6 在 BrowseComp 网络信息检索测试中达到 84.0%，超越了 GPT-5.2 Pro 的 77.9%。
流体智力：在 ARC AGI 2 流体智力测试中，Opus 4.6 取得了 68.8% 的高分，远超 GPT-5.2 Pro 50% 以上的水平。
计算机操作：在 OSWorld 计算机操作能力测试中，Opus 4.6 获得了 72.7% 的成绩，相较于 Opus 4.5 的 66.3% 有了显著提升。
长文本检索：利用 100 万 token 上下文，Opus 4.6 在 MRCR v2 长上下文检索测试的八针变体中达到了 76% 的准确率。
代码修复效率：在 SWE-bench Verified 代码修复测试中，平均 25 次试验的成功率达到了 80.8%，优化提示后更是触及 81.42%。

如何接入 Claude Opus 4.6

网页端直连：用户登录 claude 网站即可立即体验 Claude Opus 4.6 的全部功能，无需进行任何额外的设置，模型已在网页界面全面部署。
API 编程调用：开发者可通过 API 接口调用此模型，使用的标识符为 claude-opus-4-6。
Claude Code 命令行操作：安装 Claude Code 工具后，用户能通过命令行直接启用 Opus 4.6 处理编程任务，并利用 /effort 参数精准控制其思考深度。