扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

AIGC动态10个月前发布 量子位
19 0 0

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

AIGC动态欢迎阅读

原标题:扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力
关键字:模型,提示,图像,区域,能力
文章来源:量子位
内容字数:3469字

内容摘要:


明敏 发自 凹非寺量子位 | 公众号 QbitAIPika北大斯坦福联手,开源最新文本-图像生成/编辑框架!
无需额外训练,即可让扩散模型拥有更强提示词理解能力。
面对超长、超复杂提示词,准确性更高、细节把控更强,而且生成图片更加自然。
效果超越最强图像生成模型Dall·E 3和SDXL。
比如要求图片左右冰火两重天,左边有冰山、右边有火山。
SDXL完全没有符合提示词要求,Dall·E 3没有生成出来火山这一细节。
还能通过提示词对生成图像二次编辑。
这就是文本-图像生成/编辑框架RPG(Recaption,Plan and Generate),已经在网上引起热议。
它由北大、斯坦福、Pika联合开发。作者包括北大计算机学院崔斌教授、Pika联合创始人兼CTO Chenlin Meng等。
目前框架代码已开源,兼容各种多模态大模型(如MiniGPT-4)和扩散模型主干网络(如ControlNet)。
利用多模态大模型做增强一直以来,扩散模型在理解复杂提示词方面都相对较弱。
一些已有改进方法,要么最终实现效果不够好,要么需要进行额外训练。
因此研究团队利用多模态大模型的理解能力来增强扩


原文链接:扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...