通用多模态人工智能：架构、挑战和机遇综述

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：通用多模态人工智能：架构、挑战和机遇综述
关键字：模型,报告,文本,图像,分类法
文章来源：人工智能学家
内容字数：0字

内容摘要：

来源：专知
多模态模型被认为是未来人工智能进步的关键组成部分。由于基础模型在自然语言处理 (NLP) 和视觉领域的成功，这一领域正迅速发展，并涌现出大量新的设计元素。人们普遍希望将基础模型进一步扩展到多种模态（如文本、图像、视频、传感器、时间序列、图等），最终形成通用的多模态模型，即在不同数据模态和任务之间通用的单一模型。
然而，关于最近的多模态模型（尤其是那些超越文本和视觉的模型）的系统性分析研究较少，特别是对于所提出的底层架构。因此，本研究通过一种新颖的架构和训练配置特定的分类法，提供了关于通用多模态模型（GMMs）的新视角。这包括统一性、模块化和适应性等对GMMs广泛采用和应用至关重要的因素。本文综述进一步强调了该领域的关键挑战和前景，并指导研究人员了解新的进展。
引言
多模态模型是能够跨越多种数据模态进行学习的深度学习模型。有人推测，这类模型可能是实现人工通用智能（AGI）所必需的一步，因此，机器学习社区对它们的兴趣正在迅速增加。多模态学习的最终目标是开发一个可以执行（或轻松适应执行）各种多模态任务的单一模型。一个简单的多模态例子是一个视觉语言模型，它可以执行单模态任务（如文本

原文链接：通用多模态人工智能：架构、挑战和机遇综述