碑谷式错觉图像都被「看穿」，港大、TikTok的Depth Anything火了

AIGC动态2年前 (2024)发布机器之心

纪念碑谷式错觉图像都被「看穿」，港大、TikTok的Depth Anything火了

AIGC动态欢迎阅读

原标题：碑谷式错觉图像都被「看穿」，港大、TikTok的Depth Anything火了
关键字：模型,图像,深度,语义,数据
文章来源：机器之心
内容字数：7401字

内容摘要：

机器之心报道
编辑：Panda、蛋酱人类有两只眼睛来估计视觉环境的深度信息，但机器人和 VR 头社等设备却往往没有这样的「配置」，往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计（MDE）。
近日，一种可有效利用大规模无标注图像的新 MDE 模型 Depth Anything 凭借强大的性能在社交网络上引起了广泛讨论，试用者无不称奇。
甚至有试用者发现它还能正确处理埃舍尔（M.C.Escher）那充满错觉的绘画艺术（启发了《碑谷》等游戏和艺术）：从水上到水下，丝滑切换：更好的深度模型也得到了效果更好的以深度为条件的 ControlNet，可用于图像生成和视频编辑。如下图所示，生成的内容质量得到了显著增强：理论上说，基础模型可用于解决单目深度估计（MDE）问题，即基于单张图像估计深度信息。这类技术在机器人、自动驾驶、虚拟现实等领域都有广阔的应用前景。但由于难以构建带有数千万深度标签的数据集，这一问题还少有研究者探索。
此前的 MiDaS 算得上是这个方向上的一项开创性研究，其基于一个混合标注的数据集训练了一个 MDE 模型。尽管 MiDaS 展现出了一定程度的零

原文链接：碑谷式错觉图像都被「看穿」，港大、TikTok的Depth Anything火了