西安交大发表鲁棒视觉问答综述，揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

AIGC动态2年前 (2024)发布 AI科技评论

AIGC动态欢迎阅读

原标题：西安交大发表鲁棒视觉问答综述，揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI
关键字：视觉,数据,模型,问答,答案
文章来源：AI科技评论
内容字数：6350字

内容摘要：

2024年2月，西安交通大学智能网络与网络安全教育部重点实验室与陕西省大数据知识工程实验室（跨媒体知识融合与工程应用研究所）师生，在人工智能顶级期刊IEEE TPAMI（影响因子：23.6）上发表题为“Robust Visual Question Answering: Datasets, Methods, and Future Challenges”（鲁棒视觉问答：数据集、方法与挑战）的综述论文，对鲁棒视觉问答方法与测评数据集进行了深入探讨与梳理，并对该方向下一步的关注重点进行了凝练与总结。
文章作者依次为：马杰（助理教授）、王平辉（教授）、孔德辰（硕士生）、王泽伟（硕士生）、刘均（教授）、裴红斌（助理教授）、赵俊舟（副教授）。1视觉问答任务简要介绍模态（Modality）是由德国物理学家Helmholtz提出的一种生物学概念，即生物依靠感官与经验接收信息的通道，如人类具有视觉、听觉、触觉、味觉及嗅觉。多模态交互与推理指人通过声音、肢体语言、信息载体（文本、图像、音频、视频）、环境等多种通道与计算机进行交流，从而充分模拟人与人之间的交互与推理方式。
近年来，如何使计算机具有类人的多模态

原文链接：西安交大发表鲁棒视觉问答综述，揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI