港中文在读博士李彦玮：LLaMA-VID: 专注于长视频理解的视觉语言大模型

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：港中文在读博士李彦玮：LLaMA-VID: 专注于长视频理解的视觉语言大模型
关键字：模型,视觉,视频,上下文,用户
文章来源：算法邦
内容字数：2111字

内容摘要：

1月17日晚7点，智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品，并聚焦于大语言模型工具调用 ControlLLM、长视频理解视觉语言模型 LLaMA-VID和多模态文档理解大模型 mPLUG-DocOwl，香港科技大学在读博士刘兆洋、香港中文大学在读博士李彦玮和阿里巴巴通义实验室高级算法工程师文束将参与主讲。
其中，李彦玮将围绕主题《LLaMA-VID: 专注于长视频理解的视觉语言大模型》进行直播讲解。
本次分享主要介绍一种新提出的 LLaMA-VID 用于长视频理解。在这项工作中，我们旨在解决视觉语言模型（VLM）中的长视频 Token 生成负载。
当前的 VLM 在图像字幕和视觉问答等任务中表现出色，但由于每帧需要过多的Token进行表示，难以支持几个小时的长视频理解。LLaMA-VID 通过使用两个不同的 Token 来表示每一帧解决这个问题，即上下文 Token 和内容 Token。上下文 Token 基于用户输入编码整体图像上下文，而内容 Token 则封装了每个帧中的视觉信息。这种策略显著减少了长视频的负载，同时保留

原文链接：港中文在读博士李彦玮：LLaMA-VID: 专注于长视频理解的视觉语言大模型