CVPR'24 Highlight！清华AIR刘洋教授团队提出面向具身智能的第一视角多模态模型评价基准 | 讲座预告

AIGC动态2年前 (2024)发布智猩猩GenAI

AIGC动态欢迎阅读

原标题：CVPR'24 Highlight！清华AIR刘洋教授团队提出面向具身智能的第一视角多模态模型评价基准 | 讲座预告
关键字：模型,视角,智能,人称,清华大学
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

智猩猩是智一科技打造的AI与硬科技知识分享社区，关注大模型、通用视觉、算力、具身智能机器人与自动驾驶，提供讲座、公开课、在线研讨会、峰会等线上线下产品。
「智猩猩具身智能前沿讲座」由智猩猩机器人新青年讲座全新升级而来，致力于邀请来自全球知名高校、顶尖研究机构以及优秀企业的学者与研究人员，主讲在具身智能领域的研究成果与系统思考。目前很多评测工作都在探究视觉语言大模型在不同维度上的能力，但已有的评测数据都是以物体为中心或者第三人称视角，对于模型在第一人称视角下的能力评测则有显著欠缺。在真实世界中，人会以第一人称视角去观察和理解世界并与之交互。而未来作为具身智能体或机器人的大脑，多模态模型应当具备从第一人称视角理解世界的能力。
针对当前问题，清华大学刘洋教授团队提出了第一人称视角的视觉问答基准数据集EgoThink，相关论文收录于 CVPR 2024 并获得 Highlight。其中清华大学万国数据教授、智能产业研究院执行院长刘洋教授为通讯作者，清华大学计算机系、智能产业研究院（AIR）在读博士程思婕是项目负责人及论文一作。该论文提出了一个针对视觉语言大模型在第一人称视角下思考能力的较为完

原文链接：CVPR'24 Highlight！清华AIR刘洋教授团队提出面向具身智能的第一视角多模态模型评价基准 | 讲座预告