扩散模型图像理解力刷新SOTA！字节复旦团队提出全新「元提示」策略

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：扩散模型图像理解力刷新SOTA！字节复旦团队提出全新「元提示」策略
关键字：字节跳动,特征,任务,模型,视觉
文章来源：新智元
内容字数：5659字

内容摘要：

新智元报道编辑：好困桃子
【新智元导读】过去一年扩散模型风头正劲，彻底改变了文生图领域！那么，扩散模型能否处理视觉感知任务？字节跳动和复旦大学技术团队在最新研究中提出了一个简单有效的方案。Text-to-image（T2I）扩散模型在生成高清晰度图像方面显示出了卓越的能力，这一成就得益于其在大规模图像-文本对上的预训练。
这引发了一个自然的问题：扩散模型是否可以用于解决视觉感知任务？
近期，来自字节跳动和复旦大学的技术团队提出了一种简单而有效的方案：利用扩散模型处理视觉感知任务。
论文地址：https://arxiv.org/abs/2312.14733
开源项目：https://github.com/fudan-zvg/meta-prompts
团队的关键洞察是引入可学习的元提示（meta prompts）到预训练的扩散模型中，以提取适合特定感知任务的特征。
技术介绍团队将text-to-image扩散模型作为特征提取器应用于视觉感知任务中。
输入图像首先通过VQVAE编码器进行图像压缩。这一步将图像分辨率降低到原始大小的1/8，产生latent space中的特征表示，即。值得

原文链接：扩散模型图像理解力刷新SOTA！字节复旦团队提出全新「元提示」策略