Qwen3.7-Max

Qwen3.7-Max – 阿里通义推出的新一代旗舰大模型

Qwen3.7-Max，这款由阿里巴巴通义千问团队倾力打造的尖端大模型，正引领我们迈入智能体新纪元，其定位是构建一个全能型的智能体基石。该模型集前沿的编程能力、高效的办公自动化、持久的自主执行以及卓越的跨框架适应性于一身。在SWE-Pro、MCP-Atlas、GPQA Diamond等数十项严苛的编程、智能体及推理基准测试中，Qwen3.7-Max均斩获了领先的成绩。

Qwen3.7-Max的卓越之处

Qwen3.7-Max是阿里通义千问团队为迎接智能体时代的到来而推出的新一代旗舰级大型语言模型，它被设计为万能智能体的大脑核心。该模型在编程、办公自动化、长时间自主任务执行以及跨不同框架的通用性这四大关键领域展现出非凡实力。在SWE-Pro、MCP-Atlas、GPQA Diamond等众多用于评估编程、智能体应用和推理能力的基准测试中，Qwen3.7-Max均取得了领先地位。更值得一提的是，它能够无缝集成至Claude Code、OpenClaw、Qwen Code等主流的智能体框架之中。

Qwen3.7-Max的核心功能亮点

尖端编程助手：它能够胜任从前端原型开发到复杂的多文件软件工程的全过程代码编写与调试工作，在SWE-Pro、SWE-Multilingual等编程能力评测中表现出色，位居前列。
智能办公革新者：通过集成MCP并运用多智能体协同，实现工作流程的自动化。在SpreadSheetBench-v1办公自动化基准测试中，它获得了87.0的高分，足以应对复杂的数万分析和文档生成任务。
超长周期自主执行能力：模型具备持续稳定的超长任务执行能力。在一项长达35小时、涉及超过1000次工具调用的全自主内核优化实验中，它始终保持了连贯的推理过程。
跨框架无缝迁移：Qwen3.7-Max原生支持Claude Code、OpenClaw、Qwen Code等主流智能体框架，无需针对特定框架进行微调，即可稳定发挥其强大性能。

Qwen3.7-Max的技术基石

环境扩展训练的深化：在继承Qwen3.5环境扩展方法的基础上，Qwen3.7-Max大幅提升了智能体训练环境的质量和多样性，从而赋予模型在各种复杂环境中实现能力泛化的潜力。
解耦式Rollout基础设施的应用：该模型将训练实例分解为任务、运行框架和验证器这三个相互的组件，支持跨框架和跨验证器的强化学习训练，迫使模型掌握通用的问题解决策略。
组合式扩展策略：同一项任务可以与不同类型、不同版本的框架及验证器以极低的边际成本组合，实现了训练环境的规模化、组合式扩展。
长程强化学习的优化：通过在长周期自主执行过程中进行持续的反馈迭代，模型在30小时以上仍能展现出实质性的改进，这充分证明了其长程优化和自我进化的强大能力。

如何体验Qwen3.7-Max

Qwen3.7-Max的强大功能将通过阿里云百炼平台提供服务，敬请期待。

Qwen3.7-Max的突出优势

智能体基准测试全面领先：在MCP-Mark、MCP-Atlas、ClawEval、QwenClawBench等通用智能体基准测试中，Qwen3.7-Max的表现超越或与Claude Opus-4.6 Max不相上下。
顶尖的编程能力：在SWE-Pro（60.6）、SWE-Multilingual（78.3）、Terminal Bench 2.0（69.7）等项评测中，Qwen3.7-Max展现出对同类模型的全面超越。
深厚的推理与知识储备：在GPQA Diamond（92.4）、HMMT 2026 Feb（97.1）、HLE（41.4）等高难度STEM推理测试中，Qwen3.7-Max位居第一梯队。
一流的多语言处理能力：在WMT24++（85.8）、MAXIFE（89.2）、MMLU-Pro（89.6）等测试中，Qwen3.7-Max在翻译和跨语言理解方面表现卓越。
真实的生产力闭环：它能够将原本需要专业团队一至两周才能完成的复杂项目，压缩至数小时内实现端到端的交付。
硬件无关的泛化能力：即使在训练过程中从未接触过的平头哥真武M890硬件平台上，Qwen3.7-Max也能通过自主探索，完成深度内核优化。

Qwen3.7-Max与同类竞品对比

对比维度	Qwen3.7-Max	Claude Opus-4.6 Max
编程智能体	SWE-Pro 60.6 / Terminal Bench 69.7，表现领先	SWE-Pro 59.0 / SWE-Verified 80.8，略有优势
通用智能体	MCP-Atlas 76.4 / ClawEval 65.2，优势明显	MCP-Atlas 75.8 / ClawEval 70.4，同样表现出色
推理能力	GPQA Diamond 92.4 / HLE 41.4，处于领先地位	GPQA Diamond 91.3 / HLE 40.0，表现稳健
办公自动化	SpreadSheetBench 87.0，成绩斐然	SpreadSheetBench 89.3，稍占优势
多语言能力	WMT24++ 85.8 / MAXIFE 89.2，领先同行	WMT24++ 82.7，表现优异
长周期执行	可在35小时内完成1000+工具调用的自主优化，30小时后仍能持续改进	长上下文处理稳定，但公开的长程自主优化案例相对较少
跨框架泛化	原生支持Claude Code / OpenClaw / Qwen Code等多种框架	主要针对Claude Code进行优化
服务提供	即将通过阿里云百炼API上线	可通过Anthropic API / Claude应用使用