Qwen-Image

Qwen-Image – 阿里通义千问开源的文生图模型

Qwen-Image 是一款由阿里通义千问团队倾力打造的开源 20B 参数 MMDiT 模型，它在复杂文本渲染和精准图像编辑方面展现出卓越性能，尤其擅长处理中文和英文，实现高保真输出。

Qwen-Image：图像创作的革新者

Qwen-Image，由阿里通义千问团队精心研发，是一款拥有 200 亿参数的开源 MMDiT 模型。作为通义千问系列的首个图像生成基础模型，它不仅在图像生成领域独树一帜，更在图像编辑方面展现出惊人的能力。这款模型支持多行布局、段落级文本生成以及精细的细节呈现，能够以高保真的效果输出中文和英文内容。用户现在可以通过 Qwen Chat 的图像生成功能亲身体验其卓越性能。

核心功能一览

文本渲染大师：轻松处理多行文本和段落文本，即使是细小的文字也能清晰呈现，尤其擅长中文和英文的渲染。
图像编辑专家：支持风格迁移、对象增删、细节增强、文字编辑和人物姿态调整，确保图像的自然与真实。
创意图像生成器：根据用户描述，生成各种艺术风格的创意图像。

访问 Qwen-Image

您可以通过以下方式体验 Qwen-Image 的强大功能：

Qwen Chat：访问 Qwen Chat 官方网站，体验图像生成功能。
在线 Demo：在 Hugging Face 空间体验模型。

Qwen-Image 的技术基石

模型架构：以先进的多模态大语言模型（MLLM）为文本特征提取模块，精准理解文本语义。变分自编码器（VAE）将图像编码为紧凑潜在表示，MMDiT 模块则基于逐步去除噪声生成图像，结合文本特征引导，实现高质量图像生成。
数据处理：通过大规模的数据收集和精心标注，构建了涵盖广泛内容的丰富数据集。模型采用多阶段数据过滤流程，确保数据的质量和多样性。
训练策略：采用流匹配（Flow Matching）作为预训练目标，结合普通微分方程（ODE）稳定训练，并保持与最大似然目标的等价性。模型同时融合文本到图像（T2I）、图像到图像（I2I）和文本图像到图像（TI2I）的多任务训练范式，实现多任务学习。

性能表现

卓越的基准测试成绩：Qwen-Image 在多个公开基准测试中斩获 12 项最佳表现（SOTA），在图像生成与编辑领域具有强大的竞争力。
超越竞争对手：在通用图像生成和图像编辑测试中，Qwen-Image 均超越了 Flux.1、BAGEL 等开源模型，以及字节跳动的 SeedDream 3.0 和 OpenAI 的 GPT Image 1（High）等闭源模型。
中文文本渲染的优势：在 LongText-Bench、ChineseWord 和 TextCraft 等测试中，Qwen-Image 表现出色，特别是在中文文本渲染方面，大幅领先现有最先进模型。

应用场景