Lego-Edit – 小米开源的图像编辑框架
核心观点: Lego-Edit 是小米开源的一款基于多模态大语言模型的智能图像编辑框架,它通过创新的三阶段强化学习训练策略和模型级工具包,实现了对图像的灵活、高效、精确编辑,并具备强大的泛化能力和易于扩展的特性,适用于创意设计、内容创作、电商、教育及个人美化等广泛场景。
Lego-Edit:智能图像编辑新范式
Lego-Edit 是一款由小米推出的前沿开源框架,它巧妙地融合了多模态大语言模型(MLLM)的强大泛化能力与精细化的图像编辑指令,为用户带来了前所未有的灵活图像处理体验。这款框架的核心在于其创新的模型级工具包,其中汇聚了多种经过高效训练的模型,能够执行丰富多样的图像操作,从而让用户能够以自然语言指令驱动复杂的图像编辑流程。
Lego-Edit 的核心优势与功能亮点
Lego-Edit 的强大之处体现在其卓越的图像编辑能力上。它不仅能够胜任局部、全局的精细化编辑,更能处理复杂的多步骤编辑任务,满足用户在各种场景下的个性化需求。得益于 MLLM 的智能理解,Lego-Edit 能够精准解析开放域的指令,即使是未曾遇到的指令,也能凭借其出色的推理能力进行有效执行。
该框架的另一大亮点是其模型级工具包,这些工具经过精心设计,能够在有限的数据集上实现高效训练,为 MLLM 提供了执行细粒度编辑操作的强大后盾。更令人称道的是,Lego-Edit 支持在无需重新训练模型的前提下,轻松集成新的编辑工具,极大地增强了其功能的可扩展性,能够灵活应对不断演进的图像编辑需求。
为了实现对编辑区域的精确控制,Lego-Edit 引入了掩码输入机制,用户可以通过掩码精确划定编辑目标,从而实现更加精准的局部修改。此外,Lego-Edit 以开源的形式提供,代码遵循 Apache 2.0 许可,模型则采用 CC BY-NC 4.0 许可,大大降低了使用门槛,用户只需简单的环境配置和模型下载,便可通过 Gradio WebUI 开启智能图像编辑之旅。
Lego-Edit 的技术基石
Lego-Edit 的技术核心围绕着几个关键要素构建。首先是其模型级工具包,集成了多种功能各异的高效训练模型,为图像编辑提供了丰富的底层能力。其次,多模态大语言模型(MLLM)驱动是整个框架的灵魂,MLLM 负责理解用户指令,并智能协调工具包中的模型来完成具体的编辑任务。
在训练策略上,Lego-Edit 采用了三阶段渐进式强化学习训练。初始阶段通过监督微调(SFT)奠定基础,随后在特定任务上进行强化学习(RL)以培养推理和工具使用能力,最后利用海量未标注指令进行额外的 RL 训练,借助大规模的批评模型反馈,显著提升了框架处理灵活指令的能力。
掩码输入机制的引入,使得用户能够精确指定编辑区域,进一步提升了编辑的灵活性和准确性。而无需重新训练的工具整合能力,则保证了框架能够快速适应新工具,保持高效和良好的可扩展性。
Lego-Edit 的广阔应用前景
Lego-Edit 的智能与灵活性使其在多个领域展现出巨大的应用潜力。
创意设计领域
设计师可以利用 Lego-Edit 快速将创意转化为视觉作品,通过简单的指令实现复杂的图像合成、风格转换,极大地提升设计效率并激发更多灵感。
内容创作与编辑
无论是视频制作、广告设计还是社交媒体内容,Lego-Edit 都能帮助创作者高效地修改图像素材,如调整色彩、更换背景、添加特效等,满足多样化的内容需求。
电商与产品展示
电商商家可以通过 Lego-Edit 对产品图片进行优化,修复瑕疵、调整光照、甚至添加虚拟场景,从而提升产品吸引力,促进销售。
教育与培训
在教育领域,Lego-Edit 可作为强大的教学工具,帮助学生掌握图像编辑技巧,培养创造力。同时,教师也能借此快速制作高质量的教学素材。
个人照片美化
普通用户也能轻松使用 Lego-Edit 对个人照片进行美化,如去除背景、调整肤色、添加装饰,制作出令人满意的照片用于分享或珍藏。
虚拟现实与游戏开发
在 VR 和游戏开发中,Lego-Edit 能够加速图像资源的生成与修改,如角色外观、场景元素等,提升开发效率并丰富视觉体验。
项目资源获取
- 项目官网:https://xiaomi-research.github.io/lego-edit/
- Github仓库:https://github.com/xiaomi-research/lego-edit
- arXiv技术论文:https://arxiv.org/pdf/2509.12883