AI变鉴片大师，星际穿越都能看懂！贾佳亚团队新作，多模态大模型挑战超长3小时视频

AIGC动态3年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：AI变鉴片大师，星际穿越都能看懂！贾佳亚团队新作，多模态大模型挑战超长3小时视频

文章来源：量子位

内容字数：5650字

内容摘要：丰色明敏发自凹非寺量子位 | 公众号 QbitAI啥？AI都能自己看电影大片了？贾佳亚团队最新研究成果，让大模型直接学会了处理超长视频。丢给它一部科幻大片《星际穿越》（片长2小时49分钟）：它“看”完之后，不仅能结合电影情节和人物轻松对电影进行点评：还能很精准地回答出剧中所涉的细节：例如：虫洞的作用和创造者是谁？答：未来的智慧生物放置在土星附近，用于帮助人类进行远距离星际穿越。男主库珀是如何将黑洞中的信息传递给女儿墨菲？答：通过手表以摩斯密码的方式传递数据。啊这，感觉电影博主的饭碗也要被AI抢走了。这就是最新多模态大模型LLaMA-VID，它支持单图、短视频和长视频三种输入。对比来看，包括GPT-4V等在内的同类模型基本只能处理图像。而背后原理更有看头。据介绍，LLaMA-VID只通过一个非常简单的办法就达成了如上能力，那就是：把表示每一帧图像的token数量，压缩到仅有2个。具体效…

原文链接：点此阅读原文：AI变鉴片大师，星际穿越都能看懂！贾佳亚团队新作，多模态大模型挑战超长3小时视频