给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA
关键字：视频,快手,慢速,模型,路径
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：佳琪自从 Sora 发布以来，AI 视频生成领域变得更加「热闹」了起来。过去几个月，我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。
和以往一眼就能识破是 AI 生成的模型不太一样，这批视频大模型可能是我们所见过的「最好的一届」。
然而，视频大语言模型（LLM）惊艳表现的背后离不开庞大且经过精细标注的视频数据集，这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新方法：采用训练好的图像大语言模型，直接用于视频任务的处理，这样就绕开了「昂贵」的训练过程。
此外，现有大多视频 LLM 存在两个主要缺点：（1）它们只能处理有限帧数的视频输入，这使得模型难以捕捉视频中细微的空间和时间内容；（2）它们缺少时间建模设计，而是简单地将视频特征输入到 LLM 中，完全依赖于 LLM 对的建模能力。
针对以上问题，苹果研究人员提出了 SlowFast-LLaVA（简称 SF-LLaVA）。这一模型基于字节团队开发的 LLaVA-NeXT 架构，无需额外微调，开箱即用。研究团队受在动作识别领域大获成功的双流网络的启发，为视频 LLM 设计了

原文链接：给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA