HiDream-O1-Image

HiDream-O1-Image – 智象未来开源的原生统一图像生成模型

智象未来（HiDream.ai）重磅推出 HiDream-O1-Image，一款性的 8B 参数级原生统一图像生成模型。该模型独创了全球首发的 UiT（Unified Transformer）架构，打破了传统图像生成模型的局限。它无需借助 VAE（变分自编码器）或的文本编码器，便能在单一的 Token 空间内直接生成高达 2048×2048 分辨率的超高清图像。在 GenEval、HPSv3 等六项关键基准测试中，HiDream-O1-Image 的表现均超越了 FLUX.2、Qwen-Image 和 GPT Image 2 等业界领先模型，荣登 Artificial Analysis 文生图竞技场开源权重模型榜首。

HiDream-O1-Image 的核心能力概览

原生高分辨率图象生成：提供高达 2048×2048 的像素级原生输出，无需经过多阶段的超分辨率处理，即可呈现影院级视觉品质。
指令驱动的图像编辑：通过指定参考图像（使用 --ref_images 参数）并结合自然语言指令，实现精确的图像编辑，例如移除特定对象或进行风格迁移。
个性化主体生成：上传两张或以上同一主体（人物或物体）的参考图像，模型能够在新场景中保持该主体的身份一致性。
卓越的长文本理解与渲染：在 CVTG-2K 和 LongText-Bench 的中英文双语长文本渲染准确率均达到 0.97 以上，显著领先于同类模型。
故事板连续画面创作：支持生成多帧连续画面，确保角色和场景的连贯性，满足影视分镜创作的特殊需求。
智能 Prompt Agent：内置的“思考”代理，能在生成前自动分析文本中的隐含知识、空间布局和文本排版逻辑，优化生成效果。

HiDream-O1-Image 的技术突破之处

UiT 统一架构的创新：HiDream-O1-Image 采用了业界首创的 UiT（Unified Transformer）统一架构，将传统扩散模型中分散的 VAE、文本编码器和扩散网络整合为一体化的端到端 Transformer 模型。
颠覆性的三段式管线：与 Stable Diffusion 和 FLUX 等模型依赖的“VAE 压缩 + 文本编码器 + 潜空间扩散”三段式流程不同，UiT 直接在原始像素空间执行扩散去噪，省去了潜空间压缩和外部编码器的环节。
共享 Token 空间实现跨模态联动：UiT 将图像的像素块、文本 Token 以及任务条件 Token 统一映射到同一共享表示空间。通过自注意力机制，文本语义能够直接关联到每一个原始像素块的位置和颜色信息。
无损的像素级原生生成：摒弃 VAE 后，模型避免了压缩与重建带来的细节损失、颜色边界伪影以及分辨率限制，实现了 2048×2048 原生分辨率的端到端生成，无需后期超分。
底层跨模态的直接对齐：在统一的注意力空间中，文本 Token 可直接“关注”到任意像素块的坐标，像素块之间也能反向“关注”文本指令的语义信息，实现了底层表示空间的直接跨模态对齐。
Guidance Distillation 加速推理：Dev 版本采用了 Guidance Distillation 知识蒸馏技术，以 Full 版本作为教师模型进行训练，在 28 步内即可直接学习到 CFG（Classifier-Free Guidance）增强后的分布，推理时无需进行双路 CFG 计算。
多任务的零切换能力：模型通过任务条件 Token 来区分文生图、指令编辑、主体个性化和故事板生成等不同任务，所有模式均共享同一套 8B 参数权重，无需加载 LoRA 或 ControlNet 即可实现任务间的无缝切换。

如何上手使用 HiDream-O1-Image

环境搭建：首先克隆 GitHub 仓库并完成依赖项的安装。确保拥有支持 CUDA 的 GPU，8B 模型可在单卡上流畅运行。
模型权重下载：从 Hugging Face 下载所需的模型权重，可以选择 Full 版本（HiDream-ai/HiDream-O1-Image）或快速版本（HiDream-O1-Image-Dev）。
文生图推理实践：运行官方提供的示例脚本，输入文本提示词，设置生成步数（Full 版 50 步，Dev 版 28 步），即可直接生成 2048×2048 的图像。
指令编辑应用：在命令行中添加 --ref_images input.jpg 参数，并配合编辑指令，例如 "remove the earphones"，即可实现零样本图像编辑。
主体个性化演示：提供两张或以上同一人物或物体的参考图，模型将自动提取身份特征并将其融入新的场景。
API 集成与低代码部署：遵循 MIT 协议授权的代码库，可将模型轻松集成到您自己的智能体或低代码平台中，支持批量调用和本地私有化部署。

HiDream-O1-Image 的突出优势

卓越的参数效率与性能：尽管仅有 8B 参数，HiDream-O1-Image 在 GenEval（0.90）、DPG-Bench（89.83）、HPSv3（10.37）等多项基准测试中全面超越了 56B 的 FLUX.2 Dev 和 27B 的 Qwen-Image，实现了 3–7 倍的参数效率提升。
无损的像素原生生成能力：直接在像素空间进行运算，彻底避免了 VAE 压缩带来的重建误差，能够生成细节丰富、锐利的 2048×2048 原生高分辨率图像。
领先的长文本与多语言处理能力：在 LongText-Bench 中，英文和中文得分分别高达 0.979 和 0.978。在 CVTG-2K 复杂视觉文本生成任务中，得分达到 0.9128，均处于全球领先水平。
统一权重实现多任务无缝切换：文生图、指令编辑、主体个性化和故事板生成功能共享同一套模型权重，无需额外加载 LoRA 或 ControlNet 即可快速切换任务。
开源可商用，生态友好：模型代码和权重均以 MIT 协议发布，支持本地部署、低代码集成和商业化应用，已在 Hugging Face 和 GitHub 上线。

HiDream-O1-Image 的项目资源链接

GitHub 仓库：https://github.com/HiDream-ai/HiDream-O1-Image
HuggingFace 模型库：https://huggingface.co/HiDream-ai/HiDream-O1-Image
技术论文：https://github.com/HiDream-ai/HiDream-O1-Image/blob/main/assets/HiDream-O1-Image.pdf

HiDream-O1-Image 与同类竞品深度对比

维度	HiDream-O1-Image	Stable Diffusion 3.5	Ideogram 3.0
开发方	智象未来 (HiDream.ai)	Stability AI	Ideogram
模型类型	开源图像生成	开源图像生成	闭源图像生成
参数规模	8B（单一统一模型）	约 8B（MM-DiT）	未公开
核心架构	UiT 像素级统一 Transformer，无 VAE，无文本编码器	潜空间 MM-DiT，依赖 VAE 压缩与分离文本编码器	潜空间 Transformer，依赖 VAE 压缩
图像保真度	像素级原生生成，无压缩重建误差，细节锐利	潜空间生成，高频细节存在 VAE 重建损失	潜空间生成，整体画质高但受限于压缩管线
最大原生分辨率	2048×2048 端到端，无需超分后处理	通常需配合超分模型或分块生成	通常需配合超分模型
长文本渲染	LongText-Bench 英文 0.979，中文 0.978	长文本能力中等，复杂排版易出错	全球最强，复杂海报级文字排版业界标杆
CVTG-2K（复杂视觉文本）	0.9128	约 0.85	0.95+
开源协议	MIT（可商用，可修改）	开放许可（可商用）	闭源，仅 API/订阅使用
本地部署	单卡可运行 8B 统一权重	单卡可运行，硬件门槛低	不支持，仅云端调用
生态与可控性	单一权重覆盖文生图/编辑/个性化/故事板，无需 LoRA	生态最庞大，LoRA、ControlNet、IPAdapter 等插件丰富	无生态插件，依赖官方功能迭代
推理效率	28–50 步，Dev 版无需 CFG 双路计算	20–50 步，需 CFG 与多模块加载	云端推理，速度取决于服务器负载
核心优势	参数效率极致、像素原生高保真、统一架构多任务零切换	开源生态最成熟、可控工具链最完善、社区资源最丰富	长文本与排版全球最强、出图审美稳定

HiDream-O1-Image 的多元化应用场景

专业影视制作流程：凭借其影院级画质和角色一致性能力，为专业团队提供从概念构思、分镜设计到最终成片输出的一站式 AI 影视制作解决方案。
跨境电商的视觉营销：通过 HiBurst 等平台，可以批量生成精美的商品展示图和营销视频，大幅降低电商卖家的视觉内容制作成本，并有效提升海外市场的转化率。
社交媒体内容的高效生产：借助 vivago 等工具，实现秒级特效生成和端到端短视频创作，助力自媒体和 MCN 机构显著提高内容产出效率。
本地化设计工作流程的优化：8B 参数模型能够适配消费级显卡进行本地部署，使设计师能够在私有化环境中完成高分辨率海报、插画以及品牌物料的生成。
多语言出版物的视觉呈现：其出色的中英双语长文本精准渲染能力，使其特别适用于书籍封面、杂志排版、教育课件等需要复杂图文混合排版的专业出版领域。

阅读原文