当AI遇上心理学:如何让AI的眼神更像人?|AAAI 2025

EyEar的表现比目前最好的基线模型高出15%。

当AI遇上心理学:如何让AI的眼神更像人?|AAAI 2025

原标题:当AI遇上心理学:如何让AI的眼神更像人?|AAAI 2025
文章来源:AI科技评论
内容字数:4916字

EyEar:模拟人类视听同步注视轨迹的AI技术

本文介绍了中国人民大学高瓴人工智能学院宋睿华团队研发的一项名为EyEar的创新技术,该技术能够预测人类在听声音的同时观看图像时的注视轨迹,并在AAAI 2025被接收为口头报告。这项技术基于一个物理启发的动力系统,模拟了人类眼球的机制,并考虑了视觉显著性、音频语义以及眼球固有趋势等因素。

1. 任务与挑战

EyEar旨在解决一个全新的任务:Audio Synchronized Viewing,即预测人类在听到音频信号的同时,在图像中的注视轨迹。该任务的挑战在于:人类注视轨迹具有高度个体差异性,且受视觉和听觉信息的共同影响,现有技术难以准确预测。

2. EyEar模型

EyEar模型的核心是一个基于物理启发的动力系统,将眼球视为一个弹簧系统。该系统考虑了三个关键因素:

  1. 固有趋势:模拟眼球的自然习惯。
  2. 视觉显著吸引力:利用DeepGaze IIE模型预测图像中的显著区域。
  3. 音频语义吸引力:通过图像分支、音频转录分支和多模态注意力机制,预测音频语义对应的图像区域。

模型通过学习这三个因素的权重,最终预测注视轨迹。为了克服注视轨迹的高度个体差异性,EyEar采用了一种基于概率密度的评分方法(PDS),提高了模型的稳定性和评估的可靠性。

3. 数据集与实验结果

研究团队收集了一个包含20,000个注视点的数据集,用于训练和评估EyEar模型。实验结果表明,EyEar在所有评估指标上均显著优于多个基线模型,尤其在PDS指标上,其表现比最好的基线模型高出15%。EyEar能够准确预测注视轨迹,并模拟人类眼动的自然模式,特别是在音频语义的引导下。

4. 未来展望

未来,研究团队计划将EyEar扩展到视频场景,并探索更多样化的听觉信息对注视行为的影响,以进一步提升模型的鲁棒性和泛化能力,为构建更逼真和自然的虚拟角色奠定基础。


联系作者

文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...