Boogu-Image-0.1

Boogu-Image-0.1 – Boogu开源的统一图像生成与编辑模型

Boogu-Image-0.1：革新图像生成与编辑的统一化模型家族

Boogu 团队隆重推出 Boogu-Image-0.1，一个集图像生成、指令式编辑及中英双语文本渲染于一体的强大开源模型家族。该系列模型基于统一的架构设计，显著提升了多任务处理的效率与灵活性。Boogu-Image-0.1 家族包含 Base、Edit 和 Turbo 三个精心打造的变体，旨在满足用户多样化的图像处理需求。在备受瞩目的 Boogu Arena 千级提示词 ELO 评测中，Boogu-Image-0.1 系列表现卓越，位列所有参评开源与闭源系统前茅，并在 Qwen-Image-Bench 评测中荣获开源模型第一的殊荣。

Boogu-Image-0.1 的核心能力

文生图的精妙演绎：Boogu-Image-0.1 能够精准洞察摄影类提示词的细微之处，生成光影自然、构图协调、细节逼真的高品质图像，尤其擅长处理复杂的真实场景。
指令式编辑的精细操控：该模型支持对图像进行对象增删、属性材质的修改、背景场景的替换，乃至跨艺术风格的迁移，同时能巧妙地保持原有主体与构图的完整性。
双语文本的驾驭自如：无论是海报、邮票、文档还是界面设计，Boogu-Image-0.1 都能实现中英双语的文字渲染，确保文字密集型视觉作品的结构清晰与版式稳定。
风格化的创意呈现：模型能够灵活驾驭国风、像素、绘本、产品级渲染等丰富多样的艺术风格，对提示词的响应敏锐且输出效果稳定。
海报与产品图的专业级优化：Boogu-Image-0.1 能够生成具备品牌一致性、精美字体排印及专业灯光构图的个性化海报与产品可视化图像。
图像内文本的灵活编辑：用户可以轻松替换、添加或移除图像中的中英文字符，并灵活调整字体、字重、颜色及布局，实现高度的文本编辑。

Boogu-Image-0.1 的技术基石

一体化多模态架构：Boogu-Image-0.1 采用创新的统一多模态理解与生成架构，将视觉感知能力与图像生成能力无缝整合于单一模型框架。这种设计赋予了模型同时理解图像内容和生成新图像的能力，为实现精细化的编辑任务奠定了坚实的语义控制基础。
蒸馏加速的推理引擎：Turbo 变体运用先进的蒸馏技术，在与 Base 变体相近的参数量下，显著压缩了推理路径。其高效的特性使得用户仅需 3-4 步即可获得高质量的逼真摄影图像，同时依然能够支持双语文本渲染和精准遵循提示词指令。
指令对齐的编辑能力：Edit 变体（拥有 10B 参数）在统一架构的基础上，针对图像编辑任务进行了深度优化。通过指令对齐机制，它能够实现对图像局部细节的精细化修改，在保持原始主体与构图一致的前提下，轻松完成跨风格迁移和内容替换。
双语文本的卓越渲染：模型在统一架构内部集成了对中英文字符结构化理解与生成的能力。借助版式感知机制，它能确保海报、品牌物料等文字密集型场景下的可读排版与稳定渲染效果。

立即关注微信公众号，回复“开源”，即可加入AI开源项目交流群。

如何体验 Boogu-Image-0.1

在线即时体验：访问魔搭创空间（https://modelscope.cn/studios/Boogu/boogu-image-edit-gradio），无需本地部署，即可直接上传图片并输入编辑指令，即刻感受 Boogu-Image-0.1 的强大功能。
模型权重获取：前往 ModelScope 组织页（https://modelscope.cn/organization/Boogu），下载 Base、Edit 和 Turbo 各个变体的模型权重。
本地部署与开发：克隆 GitHub 仓库（https://github.com/boogu-project/Boogu-Image），按照 README 文档配置环境，即可加载模型进行本地生成或编辑操作。

Boogu-Image-0.1 的突出优势

全能统一的架构：同一模型家族囊括了生成、编辑、文本渲染三大核心任务，用户无需在不同功能之间频繁切换模型，极大提升了工作效率。
闪电般的推理速度：Turbo 变体仅需 3-4 步即可完成高质量图像生成，其推理效率甚至媲美部分闭源解决方案。
卓越的双语文本表现：在中文和英文文本渲染方面表现稳定出色，尤其适合国内的海报、品牌物料等本土化设计需求。
编辑的精妙一致性：Edit 变体在进行内容修改时，能够高度保留原始主体与构图的完整性，有效避免了传统编辑模型中常见的整体重绘导致的失真问题。

Boogu-Image-0.1 的项目入口

官方网站：https://boogu.org/
GitHub 仓库：https://github.com/boogu-project/Boogu-Image
HuggingFace 模型库：https://huggingface.co/Boogu

Boogu-Image-0.1 与竞品对比分析

维度	Boogu-Image-0.1	Qwen-Image-2.0
发布方	Boogu 团队	阿里巴巴通义团队
发布时间	2026 年 6 月	2026 年 2 月
开源协议	Apache-2.0	Apache-2.0
模型参数	Edit 变体 10B；Base/Turbo 参数量与 Base 一致（未公开具体数值）	扩散解码器 7B + Qwen3-VL 编码器 8B，合计约 15B 级别
核心架构	统一多模态理解与生成架构，将视觉理解与图像生成整合于单一框架	双组件架构：8B Qwen3-VL 视觉语言编码器 → 7B MMDiT 扩散解码器
统一能力	文生图、指令式图像编辑、中英双语文本渲染三合一	文生图、图像编辑、文本渲染统一于单一 7B 模型
最大分辨率	示例多为 1024×1024（支持更高，未明确上限）	原生 2048×2048（2K），无需上采样
提示词长度	未明确公开上限	最高 1000 tokens
文本渲染	中英双语，支持超密集文本、海报、品牌物料等复杂排版	中英双语，支持信息图表、PPT、海报、书法等，强调材质适配与结构化对齐
推理效率	Turbo 变体仅需 3-4 步即可完成高质量生成	未明确优化步数，7B 轻量架构降低显存需求
本地部署	支持，通过 GitHub 与 ModelScope 获取权重和代码	支持，GitHub 开源，DiffSynth-Studio 支持 4GB 显存分层卸载