AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种
关键字：模型,世界,测试,指令,创意
文章来源：量子位
内容字数：0字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI测评大模型Agent能力，从未如此直观。
新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼，差距不要太明显，引来大量围观。
如果让AI不断迭代，甚至能盖出一片建筑群。
为了避免Claude团队糟糕的命名方式造成混淆，下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。
作者adi戏称其为目前“唯一可靠的评测基准”。
Aidan Bench作者Aidan McLau认为评测基准界正需要这个，审美也与智力显著相关。
他甚至愿意提供资金，把这个项目扩展成完整的评测。
总之在开源社区帮助下，代码迅速上架GitHub，更多模型测试结果陆续出炉中。
比如以慢思考著称的OpenAI o1系列，o1-preivew确实盖的更慢，但结构也更完整。o1-mini则无法胜任这个任务。
最终在人类喜好评估（2000+网友投票）中，Sonnet 3.6小赢了一手创意性。
如果不比创意比模仿真实建筑泰姬陵，o1-preview就占很大优势了。
照这个趋势下去，这款经典游戏很快就要从《别人的世界》变成《AI的

原文链接：AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种