AIGC动态欢迎阅读
原标题:空间智能版ImageNet来了!李飞飞吴佳俊团队出品
关键字:视频,模型,任务,报告,视觉
文章来源:量子位
内容字数:0字
内容摘要:
衡宇 发自 凹非寺量子位 | 公众号 QbitAI空间智能版ImageNet来了,来自斯坦福李飞飞吴佳俊团队!
HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。
通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。
2009年,李飞飞团队在CVPR上首次对外展示了图像识别数据集ImageNet,它的出现极大推动计算机视觉算法的发展——懂CV的都是知道这里面的门道有多深。
现在,随着多模态迅猛发展,团队认为“现有的视频基准测试,大多集中在特定领域或短视频上”,并且“这些数据集的平均视频长度较短,限制了对长视频理解能力的全面评估”。
于是,空间智能版ImageNet应运而生。
HourVideo包含500个来自Ego4D数据集的第一人称视角视频,时长在20到120分钟之间,涉及77种日常活动。
评测结果表示,人类专家水平显著优于目前长上下文多模态模型中最厉害的Gemini Pro 1.5(85.0%对37.3%)。
在多模态能力上,大模型们还任重而道远。
HourVideo如何炼成?之所以提出HourVideo,是因为研究人员发现目
原文链接:空间智能版ImageNet来了!李飞飞吴佳俊团队出品
联系作者
文章来源:量子位
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...