37项SOTA！全模态预训练范式MiCo：理解任何模态并学习通用表示｜港中文&中科院

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：37项SOTA！全模态预训练范式MiCo：理解任何模态并学习通用表示｜港中文&中科院
关键字：上下文,团队,数据,模型,音频
文章来源：量子位
内容字数：0字

内容摘要：

MiCo团队投稿量子位 | 公众号 QbitAIGPT-4o掀起一股全模态（Omni-modal）热潮，去年的热词多模态仿佛已经不够看了。
要构建全模态智能，意味着能够理解任何模态并学习通用表示 (Universal Representations)。
现在，港中文、中科院等提出了一种大规模的全模态预训练范式，称为多模态上下文MiCo（Multimodal Context），它可以在预训练过程中引入更多的模态，数据量，模型参数。
借助 MiCo，团队预训练的模型在多模态学习中表现出极为令人印象深刻的性能，在目前主流的三大类任务上的评估结果显示出：
10种不同模态的单模态感知基准。
25种跨模态理解任务，包括检索、问答、描述。
18种多模态大型语言模型基准，MiCo取得了37项最强性能的记录。
大规模全模态预训练在AI的发展历程中, 大规模的预训练已经逐渐成为一种非常有前景的途径来实现通用智能（譬如大规模训练的GPT-4o, LLaMA, Stable Diffusion）。
其中图文对比学习是社区最有影响力的预训练方法之一，比如，CLIP构建起了数百万的图文数据对来实现跨模态的对比学

原文链接：37项SOTA！全模态预训练范式MiCo：理解任何模态并学习通用表示｜港中文&中科院