Qwen3.7 Preview

Qwen3.7 Preview – 阿里通义推出的下一代旗舰大模型预览版

阿里通义千问团队近期发布了其下一代旗舰大模型预览版——Qwen3.7 Preview。该版本包含 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 两个版本，在智能体编程、世界知识掌握以及指令理解能力上均取得了显著进步。这些提升有力地推动了阿里在 LMSYS Chatbot Arena 榜单中的排名，使其在文本处理领域跃升至第六位，在视觉处理领域位列第五。其中，Max 版本专注于极致的复杂推理与编程能力，而 Plus 版本则在百万级长上下文处理与 Agentic Coding（自主编程）之间寻求更佳的平衡。

Qwen3.7 Preview 的核心亮点

Qwen3.7 Max Preview
- 卓越的复杂推理能力：在 SWE-bench Pro、Terminal-Bench 等权威编程基准测试中表现突出，能够胜任高难度的软件工程任务，并进行精妙的多步骤逻辑推断。
- 拓展的世界知识与精准指令遵循：模型的世界知识覆盖面大幅拓宽，能够精准洞察并执行复杂的指令，显著降低了产生知识性错误或误操作的风险。
- 原生的多模态理解能力：支持文本、图像、视频等多种模态的输入，其视觉推理能力已跻身全球前五，能够实现跨模态信息的深度融合。
- 超长上下文处理：拥有高达 256K Token 的上下文窗口，无需分段输入即可完成代码库级别的深度分析以及海量文档的精细化理解。
- 灵活的混合推理模式：能够在“思考”与“非思考”模式间流畅切换，根据任务的复杂程度动态调整，兼顾了推理的深度与效率。
Qwen3.7 Plus Preview
- 百万级原生上下文处理：能够一次性容纳整个代码仓库或超长篇幅的文档，实现端到端的长文本推理和信息提取，极大地提升了处理效率。
- Agentic Coding 自主编程：在复杂的工程环境中，模型能够自主规划、执行并优化开发任务，支持多轮交互式的代码生成与调试，展现了强大的自主编程潜力。
- 性能与成本的优化平衡：以更低的推理成本实现了接近 Max 版本的综合性能，非常适合需要高频调用的企业级生产部署场景。
- 原生多模态推理能力：支持文本、图像、视频的混合输入，实现跨模态信息融合与结构化输出，为内容创作提供了更多可能性。
- 企业级 Agentic AI 优化：为大规模生产环境部署进行了优化，并与阿里云百炼生态深度融合，提供了稳定可靠的商业化接入体验。

Qwen3.7 Preview 的技术基石

MoE 混合专家架构：采用混合专家模型架构，通过激活少量参数即可实现高密度模型的性能，从而在同等算力条件下获得更强大的推理能力。
大规模强化学习优化：在训练过程中，通过自动扩展测试用例来提升代码执行的成功率，从而强化了模型在编程和复杂任务中的可靠性。
长时序强化学习（Long-Horizon RL）：鼓励模型通过多轮交互来解决复杂问题，支持持续学习和策略优化，显著提升了 Agent 的自主决策能力。
思考预算控制机制：允许用户根据任务需求动态调整推理深度，通过配置思考 Token 预算来平衡响应的质量和速度。
保留思维链（Preserve Thinking）：在 Agent 任务执行过程中，模型会完整地保留其推理过程，确保了多轮交互的连续性和可追溯性，便于后续的调试和审计。

如何体验 Qwen3.7 Preview

访问 Arena 评测平台：您可以前往 Arena 官网 https://arena.ai/，Qwen3.7 Preview 已在该平台上线，供大家进行公开横向评测。
选择合适的模型版本：在 Arena 的模型列表中，您可以根据自身需求选择 Qwen3.7-Max-Preview（侧重极致推理）或 Qwen3.7-Plus-Preview（侧重均衡体验）。
启动对话测试：通过输入文本问题来检验模型的语言理解和指令遵循能力，或者尝试多模态任务来测试其视觉能力。
进行横向对比评估：在同一平台上，您可以将 Qwen3.7 Preview 与其他顶尖模型进行并行对比，直观感受其性能差异。

Qwen3.7 Preview 的核心竞争力

双版本并行策略：Max 版本专注于极致的复杂推理与编程，Plus 版本则侧重于百万 Token 的长上下文处理与 Agentic Coding，有效覆盖了多样化的用户需求。
全球榜单的亮眼表现：在 LMSYS Chatbot Arena 中，Qwen3.7 Preview 助力阿里在文本领域跻身第六，视觉领域位列第五，其在编程和多模态处理方面的实力得到了国际认可。
在编程基准测试中领先：在 SWE-bench Pro、Terminal-Bench 等主流编程评测中表现优异，能够胜任高难度的软件工程任务。
超乎想象的上下文窗口：Max 版本支持 256K Token，Plus 版本更是原生支持百万级 Token，能够端到端地处理整个代码库或超长文档。
创新的混合推理架构：在同一个模型内部，能够无缝切换思考模式与非思考模式，灵活适应不同任务的复杂度和成本要求。
原生的多模态理解能力：支持文本、图像、视频的混合输入，其视觉推理能力已达到全球第一梯队水平。

Qwen3.7 Preview 与同类竞品的比较

对比维度	Qwen3.7 Preview	GPT-5.5	DeepSeek V4
模型定位	双版本并行（Max/Plus），覆盖极致性能与性价比	综合能力最强，实时检索与工具调用领先	长上下文性价比之选，开源可本地部署
Arena 排名	文本第 6、视觉第 5（阿里实验室）	文本/视觉头部领先	未进入前五
编程能力	SWE-bench Pro 等基准国产领先	综合编程能力强	代码生成与数学推理优秀
上下文长度	Max 256K / Plus 1M Token	标准上下文	128K Token（可扩展）
推理模式	思考/非思考无缝切换	支持深度推理	支持 thinking 模式
实时检索	依赖外部工具	原生实时网络搜索，准确性高	需外部检索工具辅助
价格策略	Plus ¥2/百万Token 起，Max 阶梯定价	$5-30/百万Token，成本较高	开源免费/API 低价
部署方式	阿里云百炼/Qwen Studio	OpenAI API/ChatGPT	开源权重/本地部署/API
多模态支持	原生文本/图像/视频	全模态支持	文本为主，部分多模态

Qwen3.7 Preview 的广泛应用场景

赋能智能软件开发：凭借其在 SWE-bench Pro 等基准测试中领先的编程能力，Qwen3.7 Preview 可以辅助代码生成、调试，并进行代码库级别的深度分析，有力支持高难度的软件工程任务。
实现代码仓库级分析：利用 Plus 版本的百万 Token 或 Max 版本的 256K 上下文窗口，模型能够一次性理解整个代码库的结构，从而提供端到端的架构梳理和优化建议。
革新企业知识管理：模型能够处理超长合同、研究报告、技术文档等海量信息，进行深度理解和关键信息提取，无需分段输入即可保持全局逻辑的连贯性。
驱动多模态内容分析：通过融合文本、图像、视频等多种输入，模型能够进行跨模态推理，适用于视觉内容理解、视频摘要生成以及多媒体资料的审核等场景。
构建自动化智能体：借助 Agentic Coding 和混合推理模式，Qwen3.7 Preview 可以构建出能够自主规划、多轮交互并调用外部工具的复杂业务自动化流程。

阅读原文