阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA
关键字：模型,视觉,性能,语言,文本
文章来源：机器之心
内容字数：4601字

内容摘要：

机器之心专栏
机器之心编辑部OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力，推动了多模态大模型（MLLM）快速发展，MLLM 成为了现在业界最热的研究方向。
MLLM在多种视觉-语言开放任务中取得了出色的指令跟随能力。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进，但是现有的 MLLM 的研究主要关注提升多模态任务的能力，如何平衡模态协作的收益与模态干扰的影响仍然是一个亟待解决的重要问题。论文地址：https://arxiv.org/pdf/2311.04257.pdf
代码地址：https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
ModelScope 体验地址：https://modelscope.cn/studios/damo/mPLUG-Owl2/summary
HuggingFace 体验地址:https://huggingface.co/spaces/MAGAer13/mPLUG-Owl2
针对这一问题，阿里多模态大模型 mPLUG-Owl 迎来大升级，通过模

原文链接：阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA