看见这张图没有，你就照着画：谷歌图像生成AI掌握多模态指令

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：看见这张图没有，你就照着画：谷歌图像生成AI掌握多模态指令
关键字：指令,模型,图像,任务,文本
文章来源：机器之心
内容字数：6823字

内容摘要：

机器之心报道
编辑：Panda用图 2 的风格画图 1 的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了！通过引入指令微调技术，多模态大模型可以根据文本指令描述的目标和多张参考图像准确生成新图像，效果堪比 PS 大神抓着你的手助你 P 图。在使用大型语言模型（LLM）时，我们都已经见证过了指令微调的重要性。如果应用得当，通过指令微调，我们能让 LLM 帮助我们完成各种不同的任务，让其变成诗人、程序员、剧作家、科研助理甚至投资经理。
现在，大模型已经进入了多模态时代，指令微调是否依然有效呢？比如我们能否通过多模态指令微调控制图像生成？不同于语言生成，图像生成一开始就涉及到多模态。我们可否有效地让模型掌握多模态的复杂性？
为了解决这一难题，Google DeepMind 和 Google Research 提出可将多模态指令方法用于图像生成。该方法可将不同模态的信息交织在一起来表达图像生成的条件（图 1 左图给出了几个示例）。
具体来说，多模态指令可增强语言指令，比如用户可让生成模型按照指定参照图像的风格对所生成的图像进行渲染。如此一来，就能以对人类而言很直观的交互

原文链接：看见这张图没有，你就照着画：谷歌图像生成AI掌握多模态指令