AIGC动态欢迎阅读
原标题:4秒看完2小时电影!阿里发布通用多模态大模型mPLUG-Owl3 | 开源
关键字:模型,报告,图片,视觉,特征
文章来源:量子位
内容字数:0字
内容摘要:
阿里mPLUG团队 投稿量子位 | 公众号 QbitAI4秒看完2小时电影,阿里团队新成果正式亮相——
推出通用多模态大模型mPLUG-Owl3,专门用来理解多图、长视频。
具体来说,以LLaVA-Next-Interleave为基准,mPLUG-Owl3将模型的First Token Latency缩小了6倍,且单张A100能建模的图像数目提升了8倍,达到了400张图片,实测4秒就能看完一部2小时的电影。
换句话说,模型的推理效率有了极大提升。
而且不牺牲模型的准确性。
mPLUG-Owl3还在多模态大模型所涉及的各种场景,包括单图、多图、视频领域的诸多Benchmarks上达到了SOTA。
论文作者来自阿里mPLUG团队,他们一直深耕多模态大模型底座,在此之前还提出了:
高效多模态底座mPLUG系列
模块化多模态大语言模型底座mPLUG-Owl系列
文档理解底座mPLUG-DocOwl系列
下面就让我们来了解一下本次发布的mPLUG-Owl3究竟带来了什么黑科技吧。
玩法解锁团队展示了mPLUG-Owl3的几种常见用法。
多模态检索增强一般来说,对于模型没有学过的知识,通过检索系统
原文链接:4秒看完2小时电影!阿里发布通用多模态大模型mPLUG-Owl3 | 开源
联系作者
文章来源:量子位
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...