Qwen3.5

Qwen3.5 – 阿里通义千问开源的新一代原生多模态大模型

阿里巴巴通义千问团队重磅推出其最新一代的杰出之作——Qwen3.5，一款原生多模态大模型，现已正式开源。其首个开源版本Qwen3.5-397B-A17B，凭借其独树一帜的混合架构，巧妙融合了线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）技术。该模型拥有惊人的3970亿参数总量，然而在每次推理过程中，却仅需激活其中的170亿参数，真正实现了“以小博大”的战略优势。其性能表现已超越了拥有万亿参数的Qwen3-Max，同时，部署所需的显存大幅削减了60%，推理吞吐量更是实现了高达19倍的飞跃。

Qwen3.5的独到之处

Qwen3.5，作为一款原生视觉-语言模型，通过早期文本与视觉信息的深度融合，并辅以M-RoPE和3D位置编码等尖端技术，能够无缝处理文本、图像乃至视频等多种模态的任务。其语言支持能力也得到了显著扩展，从原有的119种扩展至201种。在多项备受瞩目的权威评测中，Qwen3.5的表现尤为抢眼：MMLU-Pro得分高达87.8，超越了GPT-5.2；GPQA得分88.4，领先于Claude 4.5；IFBench指令遵循评分更是达到了76.5，刷新了历史最高纪录。在定价方面，Qwen3.5极具竞争力，每百万Token仅需0.8元，相较于Gemini 3 Pro，价格优势高达18倍。开发者可以通过魔搭社区、HuggingFace平台或阿里云百炼轻松获取模型权重和调用接口。

Qwen3.5的核心功能概览

原生多模态洞察力：能够一体化地理解和处理文本、图像和视频内容，通过早期视觉-语言的融合，实现跨模态的深度推理。
强大的智能体实力：支持工具的调用、任务的规划与执行，在BFCL-V4等智能体评测中展现出卓越的性能。
高效的推理引擎：采用了Gated DeltaNet与MoE相结合的混合设计，尽管拥有397B参数，但仅激活17B即可达到业界顶尖的性能水平。
超长上下文处理能力：支持高达1M的上下文长度，在256K场景下，解码吞吐量相比前代产品提升了19倍。
广泛的多语言支持：能够覆盖201种语言及方言，词表规模扩展至25万，编码效率提升了10%至60%。
卓越的代码生成能力：在编程方面表现出色，支持多语言的代码编写、调试以及复杂项目的开发。
精细的视觉识别能力：实现对图像的细粒度理解、目标检测、OCR文档解析以及空间关系的推理。
增强的搜索集成：集成了BrowseComp等搜索智能体能力，能够实现联网信息检索与内容的整合。

Qwen3.5的技术基石

混合注意力架构的革新：结合了Gated DeltaNet的线性注意力和Gated Attention的稀疏注意力，实现了计算资源的自适应分配。
MoE稀疏激活机制：总参数量为397B，但每次推理仅激活17B（约占4.3%），通过一个共享专家与512个路由专家（每次激活10个）的组合，显著降低了推理成本。
门控机制的精妙优化：采用了head-specific sigmoid门控，取代了传统的softmax注意力机制，该项创新成果荣获了2025年NeurIPS最佳论文奖。
原生多模态融合的实现：利用M-RoPE和3D位置编码，将时空信息原生嵌入到大语言模型中，从而实现了视觉与语言的早期融合。
异构训练框架的优势：视觉与语言组件采用解耦的并行策略，通过稀疏激活技术实现跨模块计算的重叠，使得训练吞吐量接近纯文本基线。
FP8混合精度的应用：原生FP8流水线对激活、MoE路由和GEMM操作采用低精度计算，而对敏感层则保持BF16精度，显存占用降低超过50%。
异步强化学习的引入：构建了一个可扩展的异步强化学习框架，能够支持全尺寸模型，实现训练与推理的分离以及动态负载均衡，端到端加速可达3-5倍。