AIGC动态欢迎阅读
原标题:真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型
关键字:模型,图像,研究人员,任务,数据
文章来源:新智元
内容字数:12732字
内容摘要:
新智元报道编辑:Aeneas 好困
【新智元导读】首个视觉、语言、音频和动作多模态模型Unified-IO 2来了!它能够完成多种多模态的任务,在超过30个基准测试中展现出了卓越性能。首个具备理解和创造图像、文本、音频以及动作能力的自回归多模态模型来了!
来自艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校、华盛顿大学的学者提出了Unified-IO 2。
论文地址:https://arxiv.org/abs/2312.17172
为了整合不同类型的数据,研究人员将图像、文本、音频、动作等各种输入和输出转换成统一的语义表征,再通过一个统一的编解码器Transformer模型进行处理。
训练这样多样化的数据类型是极其复杂的,因此研究人员设计了多种架构优化方案,来提高模型的稳定性。
研究人员使用来自各种来源的大型多模态预训练语料库,通过具有去噪器目标的多模态混合,从头开始训练模型。
为了掌握如遵循多模态指令等广泛的技能,研究人员还特意构建并微调了一个包含120 个现有数据集的集合,并对其进行了扩展和优化。
Unified-IO 2作为一个统一的多功能模型,在GRIT基准测试中取得了SOT
原文链接:真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...