AIGC动态欢迎阅读
原标题:AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种
关键字:模型,世界,测试,指令,创意
文章来源:量子位
内容字数:0字
内容摘要:
梦晨 发自 凹非寺量子位 | 公众号 QbitAI测评大模型Agent能力,从未如此直观。
新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。
如果让AI不断迭代,甚至能盖出一片建筑群。
为了避免Claude团队糟糕的命名方式造成混淆,下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。
作者adi戏称其为目前“唯一可靠的评测基准”。
Aidan Bench作者Aidan McLau认为评测基准界正需要这个,审美也与智力显著相关。
他甚至愿意提供资金,把这个项目扩展成完整的评测。
总之在开源社区帮助下,代码迅速上架GitHub,更多模型测试结果陆续出炉中。
比如以慢思考著称的OpenAI o1系列,o1-preivew确实盖的更慢,但结构也更完整。o1-mini则无法胜任这个任务。
最终在人类喜好评估(2000+网友投票)中,Sonnet 3.6小赢了一手创意性。
如果不比创意比模仿真实建筑泰姬陵,o1-preview就占很大优势了。
照这个趋势下去,这款经典游戏很快就要从《别人的世界》变成《AI的
原文链接:AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种
联系作者
文章来源:量子位
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...