用GPT-3.5生成数据集！北大天工等团队图像编辑新SOTA，可精准模拟物理世界场景

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：用GPT-3.5生成数据集！北大天工等团队图像编辑新SOTA，可精准模拟物理世界场景
关键字：数据,团队,编辑,世界,指令
文章来源：量子位
内容字数：0字

内容摘要：

杨灵投稿量子位 | 公众号 QbitAI高质量图像编辑的方法有很多，但都很难准确表达出真实的物理世界。
那么，Edit the World试试。
来自北京大学、Tiamat AI、天工AI、Mila实验室提出了EditWorld，他们引入了一种新的编辑任务，即世界指令（world-instructed）图像编辑，它定义和分类基于各种世界场景的指令。
在一组预训练模型，比如GPT-3.5、Video-LLava 和 SDXL的支持下，建立了一个带有世界指令的多模态数据集。
在该数据集训练了一个基于扩散的图像编辑模型EditWorld，结果在其新任务的表现明显优于现有的编辑方法，实现SOTA。
图像编辑新SOTA现有的方法通过多种途径实现高质量的图像编辑，包括但不限于文本控制、拖动操作以及inpainting。其中，利用instruction进行编辑的方法由于使用方便受到广泛的关注。
尽管现有的图片编辑方法能够产生高质量的结果，但它们在处理传达物理世界中真实视觉动态的世界动态方面仍然存在困难。
如图1所示，无论是InstructPix2pix还是MagicBrush都无法生成合理的编辑结

原文链接：用GPT-3.5生成数据集！北大天工等团队图像编辑新SOTA，可精准模拟物理世界场景