GPT-4V都搞不明白的未来推理有解法了！来自华科大&上科大

AIGC动态3年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：GPT-4V都搞不明白的未来推理有解法了！来自华科大&上科大

文章来源：量子位

内容字数：8005字

内容摘要：于恩投稿量子位 | 公众号 QbitAI多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来进行预测推理仍然非常困难。即便是当前最强大的GPT-4V（如下图所示），也无法很好地解决这一问题。△ GPT-4V的错误案例现在，华科大和上科大团队提出了一个赋予多模态大语言模型前瞻性思维的学习范式，并基于这一范式构建了多模态大语言模型Merlin（梅林）。Merlin（梅林）是亚瑟王传说中的一个传奇人物，以其强大的魔法和智慧而闻名于亚瑟王传说。传说中梅林拥有预见未来的能力，并对命运有着深刻的理解。来看看它具体是如何做的？注：人类可以根据当前观测状态来推理出即将或者接下来一段时间可能会发生的，我们将这一能力称为前瞻性思维。一个简单的例子：当你在电视上观看NBA球赛时，你可以根据场上不同球员的状态来判断接下来可能会出现的场景。比如当一名进攻球员在持球突破防守人之后，…

原文链接：点此阅读原文：GPT-4V都搞不明白的未来推理有解法了！来自华科大&上科大