大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑
关键字：模型,游戏,表示,测试,网友
文章来源：量子位
内容字数：0字

内容摘要：

奇月发自凹非寺量子位 | 公众号 QbitAI一群大模型玩你画我猜，人类一旁围观超起劲儿。
就像下面这张图展示的，由Grok画长颈鹿，一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。
其实这是最近爆火的一种新的测试基准（doge）。
游戏结果一定程度上能反映出大模型能力，比如这组测试一共进行了6局游戏，表现最好的是Claude：它赢了3次！
GPT-4o表现有点抽象。就它画的这龙卷风，人类也看不懂。
不止如此，在很多轮游戏中，其他模型都在认认真真地答题，而它的第一个回答经常是Circle？？有点子抽象。
所以有人就说，这游戏可以当测试基准来用啊。
还有人表示，AI照这个速度发展，人类就只能当围观的瓦力了。来看看更多有趣的例子在比较简单的题目上，所有模型都在一两个回合中就猜对了答案，比如下面的房子：
还有非常简洁的草地、海洋：
动物主题相对复杂一些，模型们一般需要猜4-5轮，比如大象这题：
游戏整体效果非常棒，网友们也是好评如潮：
你画我猜项目起源模型画画早已不是新鲜事，但让大模型玩你画我猜？这天才想法是怎么产生的？
首先，

原文链接：大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑