在线教程 | 打败 GPT-4V?超强开源多模态大模型 LLaVA-OneVision 正式上线!

在线教程 | 打败 GPT-4V?超强开源多模态大模型 LLaVA-OneVision 正式上线!

AIGC动态欢迎阅读

原标题:在线教程 | 打败 GPT-4V?超强开源多模态大模型 LLaVA-OneVision 正式上线!
关键字:商标,字节跳动,模型,视频,
文章来源:HyperAI超神经
内容字数:0字

内容摘要:


HyperAI超神经教程版块现已上线「LLaVA-OneVision 多模态全能视觉模型 Demo」,快来体验吧!大语言模型(Large Language Model,简称 LLM)与多模态大模型(Large Multimodal Model,简称 LMM)是人工智能领域的两个核心发展方向。LLM 主要致力于处理和生成文本数据,而 LMM 则更进一步,它旨在整合和理解包括文本、图片、视频在内的多种数据类型。如今,LLM 已经相对成熟,ChatGPT 等在文字理解方面已经「对答如流」,人们开始将目光转移到多模态数据的理解上,令模型能够「读图、看视频」。
近期,来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究人员共同开源了 LLaVA-OneVision 多模态大模型,该模型在单图像、多图像和视频任务中均展现出了卓越的性能。专为多模态大型模型设计的评估框架 LMMs-Eval 中显示,LLaVA-OneVision-72B 在大多数基准上优于 GPT-4V 和 GPT-4o,如下图所示:LLaVA-OneVision 在视频基准测试中的性能表现LLaVA-OneVision 在


原文链接:在线教程 | 打败 GPT-4V?超强开源多模态大模型 LLaVA-OneVision 正式上线!

联系作者

文章来源:HyperAI超神经
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...