考考大模型视频理解能力，中科院人大百川提出新基准合成框架

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：考考大模型视频理解能力，中科院人大百川提出新基准合成框架
关键字：模型,视频,任务,能力,基准
文章来源：量子位
内容字数：0字

内容摘要：

VideoNIAH团队投稿量子位 | 公众号 QbitAI测试Gemini1.5 Pro、GPT-4o等多模态大模型的新基准来了，针对视频理解能力的那种。
直接在视频内容中插入多个无关的图像或文本“针”，严格评估模型对时间理解的能力。
来看下面的栗子。
比如插入密码词“Alice”，让模型找到这个密码词；插入苹果图片，让模型解答这个水果是什么；又或者插入多个“针”，询问模型插入针的顺序是什么。
这就是来自中科院、人大、百川的研究团队联合提出的利用合成视频构建视频理解测试基准的方法。
该方法名为VideoNIAH，可以解耦视频内容与其对应的查询-响应对，通过插入无关的图像或文本“针”来生成测试数据，既保证了视频来源的多样性和查询响应的多样性，还通过插入多个针来严格评估模型对时间理解的能力。
此外，使用与现实视频内容相对应的查询-响应对可能存在数据泄露风险，影响基准测试的公平性，使用合成视频生成方法可以有效避免这一问题。
研究团队利用VideoNIAH方法制作了一个能够有效评估视频模型的细粒度理解能力和时空建模能力，同时支持长上下文评估的合成视频理解基准VNBench，包含1350个样本

原文链接：考考大模型视频理解能力，中科院人大百川提出新基准合成框架