人类考92分的题，GPT-4只能考15分：测试一升级，大模型全都现原形了

AIGC动态3年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：人类考92分的题，GPT-4只能考15分：测试一升级，大模型全都现原形了

文章来源：机器之心

内容字数：8148字

内容摘要：机器之心报道编辑：张倩、泽南AutoGPT 的得分也凉凉。GPT-4 自诞生以来一直是位「优等生」，在各种考试（基准）中都能得高分。但现在，它在一份新的测试中只拿到了 15 分，而人类能拿 92。这套名叫「GAIA」的测试题由来自 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 的团队制作，提出了一些需要一系列基本能力才能解决的问题，如推理、多模态处理、网页浏览和一般工具使用能力。这些问题对人类来说非常简单，但对大多数高级 AI 来说却极具挑战性。如果里面的问题都能解决，通关的模型将成为 AI 研究的重要里程碑。GAIA 的设计理念和当前的很多 AI 基准不一样，后者往往倾向于设计一些对人类来说越来越难的任务，这背后其实反映了当前社区对 AGI 理解的差异。GAIA 背后的团队认为，AGI 的出现取决于系统能否在上述「简单」问题上表现出与普通人类似的稳…

原文链接：点此阅读原文：人类考92分的题，GPT-4只能考15分：测试一升级，大模型全都现原形了