真·大一统！AI2南邮校友等打造Unified-IO 2：首个视觉/语言/音频/动作多模态模型

AIGC动态2年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：真·大一统！AI2南邮校友等打造Unified-IO 2：首个视觉/语言/音频/动作多模态模型
关键字：模型,图像,研究人员,任务,数据
文章来源：新智元
内容字数：12732字

内容摘要：

新智元报道编辑：Aeneas 好困
【新智元导读】首个视觉、语言、音频和动作多模态模型Unified-IO 2来了！它能够完成多种多模态的任务，在超过30个基准测试中展现出了卓越性能。首个具备理解和创造图像、文本、音频以及动作能力的自回归多模态模型来了！
来自艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校、华盛顿大学的学者提出了Unified-IO 2。
论文地址：https://arxiv.org/abs/2312.17172
为了整合不同类型的数据，研究人员将图像、文本、音频、动作等各种输入和输出转换成统一的语义表征，再通过一个统一的编解码器Transformer模型进行处理。
训练这样多样化的数据类型是极其复杂的，因此研究人员设计了多种架构优化方案，来提高模型的稳定性。
研究人员使用来自各种来源的大型多模态预训练语料库，通过具有去噪器目标的多模态混合，从头开始训练模型。
为了掌握如遵循多模态指令等广泛的技能，研究人员还特意构建并微调了一个包含120 个现有数据集的集合，并对其进行了扩展和优化。
Unified-IO 2作为一个统一的多功能模型，在GRIT基准测试中取得了SOT

原文链接：真·大一统！AI2南邮校友等打造Unified-IO 2：首个视觉/语言/音频/动作多模态模型