大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

AIGC动态欢迎阅读

原标题:大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑
关键字:模型,游戏,表示,测试,网友
文章来源:量子位
内容字数:0字

内容摘要:


奇月 发自 凹非寺量子位 | 公众号 QbitAI一群大模型玩你画我猜,人类一旁围观超起劲儿。
就像下面这张图展示的,由Grok画长颈鹿,一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。
其实这是最近爆火的一种新的测试基准(doge)。
游戏结果一定程度上能反映出大模型能力,比如这组测试一共进行了6局游戏,表现最好的是Claude:它赢了3次!
GPT-4o表现有点抽象。就它画的这龙卷风,人类也看不懂。
不止如此,在很多轮游戏中,其他模型都在认认真真地答题,而它的第一个回答经常是Circle??有点子抽象。
所以有人就说,这游戏可以当测试基准来用啊。
还有人表示,AI照这个速度发展,人类就只能当围观的瓦力了。来看看更多有趣的例子在比较简单的题目上,所有模型都在一两个回合中就猜对了答案,比如下面的房子:
还有非常简洁的草地、海洋:
动物主题相对复杂一些,模型们一般需要猜4-5轮,比如大象这题:
游戏整体效果非常棒,网友们也是好评如潮:
你画我猜项目起源模型画画早已不是新鲜事,但让大模型玩你画我猜?这天才想法是怎么产生的?
首先,


原文链接:大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...