慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

AIGC动态欢迎阅读

原标题：慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密
关键字：模型,人类,任务,提示,参与者
文章来源：量子位
内容字数：0字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAIOpenAI o1彻底带火慢思考和思维链（CoT）方法，但CoT在某些任务上反而会降低模型表现。
比如给生造的词分类任务，GPT-4在zero-shot提示下的准确率高达94%，换成CoT的准确率却到64.4%。
内置CoT的o1-preview准确率更是只有57.7%。
CoT究竟会“搞砸”哪些任务，在学术界仍是一个悬而未决的问题。
现在，普林斯顿计算机系与心理系合作，确定了其中一些任务的特征：人类深思熟虑或被要求解释自己的思路时，也会降低在这些任务上的表现。
新论文“一步一步想，但小心脚下”已上传到arXiv。
心理学探索思维链掉链子原因为了缩小要探索的范围，团队在CoT提示和人类进行语言思考之间进行了类比。
大模型和人类具能力有着根本不同，因此影响表现的约束因素也不同。如大模型的上下文长度很长，远远超出了人类的记忆限制。
因此，团队预计CoT将在以下情况下损害模型性能：
（i）深思熟虑会损害人类的表现（ii）影响人类在任务上表现的约束条件，可以普遍性地推广到大模型。
在实验中，选择了心理学文献中的6项任务，其中隐式统

原文链接：慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密