Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

原标题：Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场
文章来源：新智元
内容字数：3651字

近年来，大型语言模型（LLM）的评估标准一直备受争议。Andrej Karpathy等AI专家也表达了对现有基准的担忧，例如MMLU、SWE-Bench Verified和Chatbot Arena等，都存在各自的局限性。面对这一“评估危机”，一个新兴的评估方向正悄然兴起——游戏测试。

游戏测试：超越传统基准
文章指出，经典游戏，如超级马里奥和2048，正成为评估LLM智能体的新标杆。这源于游戏测试能够更全面地评估AI的规划能力、问题解决能力以及适应性等多方面能力，而这些能力是传统文本基准难以完全捕捉的。
超级马里奥：AI能力拼
加州大学圣迭戈分校Hao AI Lab开发的“游戏智能体” (CUA) 对多个LLM进行了超级马里奥游戏测试。结果显示，Claude 3.7 Sonnet的表现尤为突出，能够持续游戏90秒，并展现出更高级的策略，例如躲避敌人、寻找隐藏奖励等，远超OpenAI的GPT-4、GPT-4.0和谷歌的Gemini系列模型。GPT-4.0甚至在第一关就被击败，而Gemini 1.5和2.0则表现出简单的重复性动作，例如“两步一跳”。
其他游戏测试：更全面的评估
除了超级马里奥，Hao AI Lab还对2048和方块进行了测试。在2048游戏中，Claude 3.7的表现优于GPT-4.0，但在方块中，Claude 3.7的表现则没有详细描述。这些测试结果进一步表明，游戏测试能够提供更丰富、更直观的AI能力评估。
游戏测试的未来
文章最后指出，游戏测试有望成为LLM评估的新标准，并引发了更多讨论和探索。Anthropic的开发者也表达了对这一方法的肯定，认为将各种电子游戏都作为评估工具具有巨大潜力。未来，更多游戏和更先进的AI模型有望加入这一测试。

总而言之，文章认为，基于游戏的AI评估方法，能够更全面地考察AI的智力水平，为AI发展提供更有效的评估手段，并预示着LLM评估领域的新篇章。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

文章版权归作者所有，未经允许请勿转载。

暂无评论...