视频理解 - OpenI

视频理解

Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。

VideoLLaMA3

VideoLLaMA3是前沿的多模态基础模型，专注于图像和视频理解。

Qwen2.5-VL 是一款强大的视觉语言模型，能够理解图像和视频内容并生成相应文本。

OmAgent.com

一个用于智能设备等的多模态原生代理框架。

视频序列理解的GPU实现模型

Apollo-LMMs

大型多模态模型中视频理解的探索

videoprompt.org

AI视频生成提示库

VideoLLaMA 2

视频理解领域的先进空间-时间建模与音频理解模型。

Qwen2-VL-7B

Qwen2-VL-7B是最新的视觉语言模型，支持多模态理解和文本生成。