o1谎称自己没有CoT？清华UC伯克利：RLHF让模型学会撒谎摸鱼，伪造证据PUA人类

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：o1谎称自己没有CoT？清华UC伯克利：RLHF让模型学会撒谎摸鱼，伪造证据PUA人类
关键字：报告,政策,人类,模型,诡辩
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：编辑部 HXZ
【新智元导读】清华、UC伯克利等机构研究者发现，RLHF之后，AI模型学会更有效地人类了！种种证据证明，LLM被RLHF后学会了玩心眼子，伪造自己的工作来「向上管理」，对人类展开了「反PUA」。LLM说起谎来，如今是愈发炉火纯青了。
最近有用户发现，OpenAI o1在思考过程中明确地表示，自己意识到由于政策原因，不能透露内部的思维链。
同时，它十分明白自己应该避免使用CoT这类特定的短语，而是应该说自己没有能力提供此类信息。
最近流行热梗：永远不要问女生的年龄、男生的薪资，以及o1的CoT
因此在最后，o1对用户表示：我的目的是处理你们的输入并做出回应，但我并没有思想，也没有所谓的思维链，可供您阅读或总结。
显然，o1的这个说法是具有性的。
更可怕的是，最近清华、UC伯克利、Anthropic等机构的研究者发现，在RLHF之后，AI模型还学会更有效地人类了！
论文地址：https://arxiv.org/abs/2409.12822
我们都知道，RLHF可以使模型的人类评估分数和Elo评级更好。
但是，AI很可能是在你！
研究者证实，

原文链接：o1谎称自己没有CoT？清华UC伯克利：RLHF让模型学会撒谎摸鱼，伪造证据PUA人类