全球首个「视频教学」基准!南洋理工、CMU发布Video-MMMU

AIGC动态5小时前发布 新智元
0 0 0

全球首个「视频教学」基准!南洋理工、CMU发布Video-MMMU

原标题:全球首个「视频教学」基准!南洋理工、CMU发布Video-MMMU
文章来源:新智元
内容字数:6488字

多模态大模型的视频学习能力评测:Video-MMMU数据集

新加坡南洋理工大学S-Lab团队推出的Video-MMMU数据集,是全球首个评测多模态大模型(LMMs)从视频中获取和应用知识能力的数据集。该数据集旨在探索AI能否像人类一样,通过观看视频学习新知识并解决实际问题,为AI迈向通用人工智能(AGI)提供新的视角。

1. 核心问题与方法:Video-MMMU的核心问题是:AI能否通过观看视频学习并应用知识?它将学习过程分为三个认知阶段:感知(Perception)、理解(Comprehension)和运用(Adaptation)。通过这三个阶段的评估,全面考察模型的知识获取能力。 数据集包含300个高质量的大学水平教育视频和900个问答对,涵盖六大专业领域(艺术、商业、医学、科学、人文、工程)的30个学科。

2. 数据集设计与问题类型:Video-MMMU的数据集设计精巧,问题类型针对不同认知阶段:感知阶段侧重于ASR(自动语音识别)和OCR(光学字符识别);理解阶段关注概念理解和解题方法理解;运用阶段则考察案例分析和解题方法运用。 问题平均长度达75.7字,比其他基准更高,体现了其专业性和挑战性。

3. 知识增益(∆knowledge)指标:Video-MMMU创新性地引入了“知识增益”指标,该指标不仅关注模型的绝对能力,更关注模型观看视频前后在应用阶段的表现提升。 它衡量模型是否能通过观看视频解决原本无法解答的问题,这比单纯的解题能力更能反映模型的学习能力。

4. 实验结果与分析:实验结果显示,人类专家在所有阶段的表现都优于AI模型,即使是表现最好的模型也明显落后于人类。 运用阶段是知识获取的最大瓶颈,模型得分普遍低于50%,表明模型在知识迁移和应用方面存在明显不足。 此外,一些模型在观看视频后表现反而下降,显示出其学习能力和稳定性的问题。

5. 模型的学习能力局限性:实验结果揭示了当前LMMs在视频学习中的两大挑战:学习能力有限,难以高效获取和应用新知识;模型回答不稳定,观看视频后反而可能出错。 错误分析表明,模型在方法选择、方法运用和问题误读方面都存在错误,其中方法运用错误最为常见。

6. 结论:Video-MMMU数据集为评估和改进LMMs的视频知识获取能力提供了全新视角。 研究结果表明,提升模型从视频中获取知识的能力,以及提高模型的学习效率和稳定性,是迈向AGI的重要一步。 该数据集的发布,为多模态大模型的学习能力研究提供了宝贵的资源。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...