智源独家丨谢赛宁：AI是否需要更强的视觉基础来实现理解和意义?

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：智源独家丨谢赛宁：AI是否需要更强的视觉基础来实现理解和意义?
关键字：视觉,模型,语言,报告,系统
文章来源：人工智能学家
内容字数：0字

内容摘要：

来源：智源社区
6 月 15 日，万众瞩目的智源大会「多模态大模型」论坛轰动举行。纽约大学助理教授谢赛宁从哲学的角度出发，针对大语言时代的视觉表征研究娓娓道来。从探索多模态大型语言模型的视觉缺陷、基于视觉搜索引导的多模态大模型、真实世界中的虚拟智能落地等方面介绍了团队的最新工作。通过这些工作，读者们可以窥见MLLM 的未来风向。
人工智能是否需要感知基础来实现理解？实际上，早在 1990 年，Stevan Harnad 就讨论了符号基础的问题。那时，深度学习还没诞生。人们认为，只有当我们为人类语言或计算机代码赋予某种感知基础，这些符号才有意义。AI 要阻止出现「语义鸿沟」：通常人们在判别图像的相似性时并非建立在图像底层视觉特征的相似上，而是建立在对图像所描述的对象或的语义理解的基础上。
在更早的 13世纪，意大利的神学家托马斯·阿奎纳曾提出「There’s nothing in mind that wasn’t first in the senses」的观点，即先有感知才有心智。此外，17 世纪的哲学家 Diderot、Condilac 等 Sensim 学派哲学家也认为：没有感知

原文链接：智源独家丨谢赛宁：AI是否需要更强的视觉基础来实现理解和意义?