提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

AIGC动态2年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

关键字：视觉,图片,视频,解读,模型

文章来源：新智元

内容字数：4933字

内容摘要：新智元报道编辑：好困【新智元导读】最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一LLM的输入能让LLM的视觉理解能力提升。最近，来自北大的研究人员提出了一种全新的视觉语言大模型——Video-LLaVA，为alignment before projection提供了新颖的解决方案。与以往的视觉语言大模型不同，Video-LLaVA关注的是提前将图片和视频特征绑定到统一个特征空间，使LLM能够从统一的视觉表示从学习模态的交互。此外，为了提高计算效率，Video-LLaVA还联合了图片和视频进行训练和指令微调。论文地址：https://arxiv.org/pdf/2310.01852.pdfGitHub…

原文链接：点此阅读原文：提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点