Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

AIGC动态1个月前发布 新智元
268 0 0

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

原标题:Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场
文章来源:新智元
内容字数:3651字

AI评估新标准:游戏测试的兴起

近年来,大型语言模型(LLM)的评估标准一直备受争议。Andrej Karpathy等AI专家也表达了对现有基准的担忧,例如MMLU、SWE-Bench Verified和Chatbot Arena等,都存在各自的局限性。 面对这一“评估危机”,一个新兴的评估方向正悄然兴起——游戏测试。

  1. 游戏测试:超越传统基准

    文章指出,经典游戏,如超级马里奥和2048,正成为评估LLM智能体的新标杆。这源于游戏测试能够更全面地评估AI的规划能力、问题解决能力以及适应性等多方面能力,而这些能力是传统文本基准难以完全捕捉的。

  2. 超级马里奥:AI能力拼

    加州大学圣迭戈分校Hao AI Lab开发的“游戏智能体” (CUA) 对多个LLM进行了超级马里奥游戏测试。结果显示,Claude 3.7 Sonnet的表现尤为突出,能够持续游戏90秒,并展现出更高级的策略,例如躲避敌人、寻找隐藏奖励等,远超OpenAI的GPT-4、GPT-4.0和谷歌的Gemini系列模型。GPT-4.0甚至在第一关就被击败,而Gemini 1.5和2.0则表现出简单的重复性动作,例如“两步一跳”。

  3. 其他游戏测试:更全面的评估

    除了超级马里奥,Hao AI Lab还对2048和方块进行了测试。在2048游戏中,Claude 3.7的表现优于GPT-4.0,但在方块中,Claude 3.7的表现则没有详细描述。这些测试结果进一步表明,游戏测试能够提供更丰富、更直观的AI能力评估。

  4. 游戏测试的未来

    文章最后指出,游戏测试有望成为LLM评估的新标准,并引发了更多讨论和探索。Anthropic的开发者也表达了对这一方法的肯定,认为将各种电子游戏都作为评估工具具有巨大潜力。未来,更多游戏和更先进的AI模型有望加入这一测试。

总而言之,文章认为,基于游戏的AI评估方法,能够更全面地考察AI的智力水平,为AI发展提供更有效的评估手段,并预示着LLM评估领域的新篇章。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...