CVPR 2024｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：CVPR 2024｜让图像扩散模型生成高质量360度场景，只需要一个语言模型
关键字：模型,场景,报告,图像,语言
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com蔡志鹏博士（https://zhipengcai.github.io/）是美国英特尔研究院的研究员，博士毕业于澳大利亚阿德莱德大学。他的研究兴趣包括鲁棒视觉感知，持续学习和生成模型等。他的工作已在领域顶级会议杂志上发表超过15篇。其中5篇文章被选为顶级会议（ECCV18*2，ICCV19，ICLR24，CVPR24）口头或特邀报告，对鲁棒估计计算复杂度的理论证明工作被选为ECCV18 12篇最佳论文之一。
360 度场景生成是计算机视觉的重要任务，主流方法主要可分为两类，一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识，这类方法无法有效生成多样的 360 度视角，导致场景内主要的目标被多次重复生成，如图 1 的

原文链接：CVPR 2024｜让图像扩散模型生成高质量360度场景，只需要一个语言模型