大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了
关键字：模型,开发者,峰会,动作,测试
文章来源：量子位
内容字数：4151字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI让大模型直接操纵格斗游戏《街霸》里的角色，捉对PK，谁更能打？
GitHub上一种你没有见过的船新Benchmark火了。
与llmsys大模型竞技场中，两个大模型分别输出答案，再由人类评分不同——街霸Bench引入了两个AI之间的交互，且由游戏引擎中确定的规则评判胜负。
这种新玩法吸引了不少网友来围观。
由于项目是在Mistral举办的黑客马拉松活动上开发，所以开发者只使用OpenAI和Mistral系列模型进行了测试。
排名结果也很出人意料。
经过342场对战后，根据棋类、电竞常用的ELO算法得出的排行榜如下：
最新版gpt-3.5-turbo成绩断崖式领先，Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。
开发者认为，这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。
与传统的强化学习也有所不同，强化学习模型相当于根据奖励函数“盲目地”采取不同行动，但大模型完全了解自身处境并有目的的采取行动。
考验AI的动态决策力AI想在格斗游戏里称王，需要哪些硬实力呢？开发者给出几个标准:

原文链接：大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了