通用视觉推理显现，UC伯克利炼出单一纯CV大模型，三位资深学者参与

AIGC动态3年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：通用视觉推理显现，UC伯克利炼出单一纯CV大模型，三位资深学者参与

关键字：视觉,模型,图像,序列,任务

文章来源：机器之心

内容字数：7085字

内容摘要：机器之心报道机器之心编辑部仅靠视觉（像素）模型能走多远？UC 伯克利、约翰霍普金斯大学的新论文探讨了这一问题，并展示了大型视觉模型（LVM）在多种 CV 任务上的应用潜力。最近一段时间以来，GPT 和 LLaMA 等大型语言模型 (LLM) 已经风靡全球。另一个关注度同样很高的问题是，如果想要构建大型视觉模型 (LVM) ，我们需要的是什么？LLaVA 等视觉语言模型所提供的思路很有趣，也值得探索，但根据动物界的规律，我们已经知道视觉能力和语言能力二者并不相关。比如许多实验都表明，非人类灵长类动物的视觉世界与人类的视觉世界非常相似，尽管它们和人类的语言体系「两模两样」。在最近一篇论文中，UC 伯克利和约翰霍普金斯大学的研究者探讨了另一个问题的答案 —— 我们仅靠像素本身能走多远？论文地址：https://arxiv.org/abs/2312.00785项目主页：https://yutong…

原文链接：点此阅读原文：通用视觉推理显现，UC伯克利炼出单一纯CV大模型，三位资深学者参与