扩散模型更懂复杂提示词！Pika北大斯坦福开源新框架，利用LLM提升理解力

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：扩散模型更懂复杂提示词！Pika北大斯坦福开源新框架，利用LLM提升理解力
关键字：模型,提示,图像,区域,能力
文章来源：量子位
内容字数：3469字

内容摘要：

明敏发自凹非寺量子位 | 公众号 QbitAIPika北大斯坦福联手，开源最新文本-图像生成/编辑框架！
无需额外训练，即可让扩散模型拥有更强提示词理解能力。
面对超长、超复杂提示词，准确性更高、细节把控更强，而且生成图片更加自然。
效果超越最强图像生成模型Dall·E 3和SDXL。
比如要求图片左右冰火两重天，左边有冰山、右边有火山。
SDXL完全没有符合提示词要求，Dall·E 3没有生成出来火山这一细节。
还能通过提示词对生成图像二次编辑。
这就是文本-图像生成/编辑框架RPG（Recaption,Plan and Generate），已经在网上引起热议。
它由北大、斯坦福、Pika联合开发。作者包括北大计算机学院崔斌教授、Pika联合创始人兼CTO Chenlin Meng等。
目前框架代码已开源，兼容各种多模态大模型（如MiniGPT-4）和扩散模型主干网络（如ControlNet）。
利用多模态大模型做增强一直以来，扩散模型在理解复杂提示词方面都相对较弱。
一些已有改进方法，要么最终实现效果不够好，要么需要进行额外训练。
因此研究团队利用多模态大模型的理解能力来增强扩

原文链接：扩散模型更懂复杂提示词！Pika北大斯坦福开源新框架，利用LLM提升理解力