Qwen3-Omni-Flash

Qwen3-Omni-Flash – 阿里通义推出的全模态大模型

Qwen3-Omni-Flash（Qwen3-Omni-Flash-2025-12-01），作为阿里巴巴Qwen团队的最新力作，是一款引领全模态AI新纪元的强大模型。它打破了模态界限，能够游刃有余地驾驭文本、图像、音频及视频等多种信息形式，并能实时输出精妙绝伦的文本内容与逼真自然的语音。相较于其前身Qwen3-Omni，Qwen3-Omni-Flash在音视频交互、系统指令的精细化控制以及跨语言交流能力上实现了全面飞跃。该模型不仅指令遵循能力更为精湛，语音表达也更显流畅生动，旨在为用户带来“声形意合，令出智随”的AI交互新体验，无疑是当前全模态AI领域的尖端代表。

Qwen3-Omni-Flash的卓越功能

全方位模态支持：集文本、图像、音频、视频于一体的输入能力，并能实时生成高品质的文本及自然语音输出。
深度音视频交互：显著增强了对音视频指令的理解与执行效率，提升了多轮对话的稳定性和连贯性，语音交互体验更加生动自然。
系统提示的精妙调控：赋予用户高度的自定义权限，可以精确塑造模型的行为模式，如设定角色风格、口语化程度以及回复的篇幅长短。
广泛的多语言覆盖：支持多达119种文本语言、19种语音识别语言以及10种语音合成语言，确保了在多元语言环境下的精准沟通。

Qwen3-Omni-Flash的性能亮点

文本处理能力的质的飞跃：在逻辑推理（ZebraLogic +5.6）、代码生成（LiveCodeBench-v6 +9.3、MultiPL-E +2.7）及综合写作（WritingBench +2.2）等任务上表现尤为突出，复杂指令的理解与执行能力达到了新的高度。
语音理解的精准度大幅提升：显著降低了语音识别（Fleurs-zh）的字错率，语音对话评估（VoiceBench）得分提高了3.2分，语音理解能力得到显著增强。
语音生成的自然度登峰造极：多语言语音合成质量全面优化，特别是在中文及多种语言的合成上，其韵律、语速及停顿的自然度已非常接近真人对话。
图像理解的深度拓展：在多学科视觉问答（MMMU +4.7、MMMU_pro +4.8）和数学视觉推理（Mathvision_full +2.2）等任务上取得了突破性进展，能够更精准地“洞察”图像内涵并进行深度分析。
视频理解的流畅性增强：视频语义理解能力（MLVU +1.6）持续优化，结合强化的音视频同步技术，为实时视频对话提供了坚实的技术保障。

Qwen3-Omni-Flash的获取途径

官方互动平台：访问Qwen Chat官网（https://qwen.ai/blog”https://ai-bot.cn/qwen-chat/” target=”_blank” rel=”noopener”>Qwen Chat），即可直接体验模型在文本、语音及图像处理方面的强大功能。
阿里云开发者平台：通过阿里云百炼官网搜索“qwen3-omni-flash-realtime-2025-12-01”，即可利用API接口将模型集成至各类应用，实现个性化功能开发。