在线教程 | 打败 GPT-4V？超强开源多模态大模型 LLaVA-OneVision 正式上线！

AIGC动态1年前 (2024)发布 HyperAI超神经

AIGC动态欢迎阅读

原标题：在线教程 | 打败 GPT-4V？超强开源多模态大模型 LLaVA-OneVision 正式上线！
关键字：商标,字节跳动,模型,视频,员
文章来源：HyperAI超神经
内容字数：0字

内容摘要：

HyperAI超神经教程版块现已上线「LLaVA-OneVision 多模态全能视觉模型 Demo」，快来体验吧！大语言模型（Large Language Model，简称 LLM）与多模态大模型（Large Multimodal Model，简称 LMM）是人工智能领域的两个核心发展方向。LLM 主要致力于处理和生成文本数据，而 LMM 则更进一步，它旨在整合和理解包括文本、图片、视频在内的多种数据类型。如今，LLM 已经相对成熟，ChatGPT 等在文字理解方面已经「对答如流」，人们开始将目光转移到多模态数据的理解上，令模型能够「读图、看视频」。
近期，来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究人员共同开源了 LLaVA-OneVision 多模态大模型，该模型在单图像、多图像和视频任务中均展现出了卓越的性能。专为多模态大型模型设计的评估框架 LMMs-Eval 中显示，LLaVA-OneVision-72B 在大多数基准上优于 GPT-4V 和 GPT-4o，如下图所示：LLaVA-OneVision 在视频基准测试中的性能表现LLaVA-OneVision 在

原文链接：在线教程 | 打败 GPT-4V？超强开源多模态大模型 LLaVA-OneVision 正式上线！