扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

AIGC动态8个月前发布 新智元
10 0 0

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

AIGC动态欢迎阅读

原标题:扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略
关键字:字节跳动,特征,任务,模型,视觉
文章来源:新智元
内容字数:5659字

内容摘要:


新智元报道编辑:好困 桃子
【新智元导读】过去一年扩散模型风头正劲,彻底改变了文生图领域!那么,扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术团队在最新研究中提出了一个简单有效的方案。Text-to-image(T2I)扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。
这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务?
近期,来自字节跳动和复旦大学的技术团队提出了一种简单而有效的方案:利用扩散模型处理视觉感知任务。
论文地址:https://arxiv.org/abs/2312.14733
开源项目:https://github.com/fudan-zvg/meta-prompts
团队的关键洞察是引入可学习的元提示(meta prompts)到预训练的扩散模型中,以提取适合特定感知任务的特征。
技术介绍团队将text-to-image扩散模型作为特征提取器应用于视觉感知任务中。
输入图像首先通过VQVAE编码器进行图像压缩。这一步将图像分辨率降低到原始大小的1/8,产生latent space中的特征表示,即。值得


原文链接:扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...