慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密

慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密

AIGC动态欢迎阅读

原标题:慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密
关键字:模型,人类,任务,提示,参与者
文章来源:量子位
内容字数:0字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAIOpenAI o1彻底带火慢思考和思维链(CoT)方法,但CoT在某些任务上反而会降低模型表现。
比如给生造的词分类任务,GPT-4在zero-shot提示下的准确率高达94%,换成CoT的准确率却断崖式下跌到64.4%。
内置CoT的o1-preview准确率更是只有57.7%。
CoT究竟会“搞砸”哪些任务,在学术界仍是一个悬而未决的问题。
现在,普林斯顿计算机系与心理系合作,确定了其中一些任务的特征:人类深思熟虑或被要求解释自己的思路时,也会降低在这些任务上的表现。
新论文“一步一步想,但小心脚下”已上传到arXiv。
心理学探索思维链掉链子原因为了缩小要探索的范围,团队在CoT提示和人类进行语言思考之间进行了类比。
大模型和人类具能力有着根本不同,因此影响表现的约束因素也不同。如大模型的上下文长度很长,远远超出了人类的记忆限制。
因此,团队预计CoT将在以下情况下损害模型性能:
(i) 深思熟虑会损害人类的表现(ii) 影响人类在任务上表现的约束条件,可以普遍性地推广到大模型。
在实验中,选择了心理学文献中的6项任务,其中隐式统


原文链接:慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...