走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

AIGC动态3年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

文章来源：机器之心

内容字数：8603字

内容摘要：机器之心报道编辑：Panda W最近，有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示，和 GPT 系列之前推出的模型相比，GPT4.5 最大的惊喜可能就是处理 3D 和视频的能力。至于 3D 能力到底是指看得懂 3D 图像，还是能输入 3D 模型，目前只能靠猜。OpenAI CEO Sam Altman 随后否认了该截图的真实性，GPT4.5 的具体能力依然是一个谜。不过，在众多研究中，确实已经有大模型实现了多个模态同时处理，甚至连视频、3D 模型也囊括了进来。给你一首曲子的音频和一件乐器的 3D 模型，然后问你这件乐器能否演奏出这首曲子。你可以通过听觉来辨认这首曲子的音色，看它是钢琴曲还是小提琴曲又或是来自吉他；同时用视觉识别那是件什么乐器。然后你就能得到问题的答案。但语言模型有能力办到这一点吗？实际上，这个任务所需的能力名为跨模态推理，也是当今多模态大模型研究热…

原文链接：点此阅读原文：走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理