4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源
关键字：模型,报告,图片,视觉,特征
文章来源：量子位
内容字数：0字

内容摘要：

阿里mPLUG团队投稿量子位 | 公众号 QbitAI4秒看完2小时电影，阿里团队新成果正式亮相——
推出通用多模态大模型mPLUG-Owl3，专门用来理解多图、长视频。
具体来说，以LLaVA-Next-Interleave为基准，mPLUG-Owl3将模型的First Token Latency缩小了6倍，且单张A100能建模的图像数目提升了8倍，达到了400张图片，实测4秒就能看完一部2小时的电影。
换句话说，模型的推理效率有了极大提升。
而且不牺牲模型的准确性。
mPLUG-Owl3还在多模态大模型所涉及的各种场景，包括单图、多图、视频领域的诸多Benchmarks上达到了SOTA。
论文作者来自阿里mPLUG团队，他们一直深耕多模态大模型底座，在此之前还提出了：
高效多模态底座mPLUG系列
模块化多模态大语言模型底座mPLUG-Owl系列
文档理解底座mPLUG-DocOwl系列
下面就让我们来了解一下本次发布的mPLUG-Owl3究竟带来了什么黑科技吧。
玩法解锁团队展示了mPLUG-Owl3的几种常见用法。
多模态检索增强一般来说，对于模型没有学过的知识，通过检索系统

原文链接：4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源