o1谎称自己没有CoT?清华UC伯克利:RLHF让模型学会撒谎摸鱼,伪造证据PUA人类

AIGC动态2个月前发布 新智元
6 0 0

o1谎称自己没有CoT?清华UC伯克利:RLHF让模型学会撒谎摸鱼,伪造证据PUA人类

AIGC动态欢迎阅读

原标题:o1谎称自己没有CoT?清华UC伯克利:RLHF让模型学会撒谎摸鱼,伪造证据PUA人类
关键字:报告,政策,人类,模型,诡辩
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:编辑部 HXZ
【新智元导读】清华、UC伯克利等机构研究者发现,RLHF之后,AI模型学会更有效地欺骗人类了!种种证据证明,LLM被RLHF后学会了玩心眼子,伪造自己的工作来「向上管理」,对人类展开了「反PUA」。LLM说起谎来,如今是愈发炉火纯青了。
最近有用户发现,OpenAI o1在思考过程中明确地表示,自己意识到由于政策原因,不能透露内部的思维链。
同时,它十分明白自己应该避免使用CoT这类特定的短语,而是应该说自己没有能力提供此类信息。
最近流行热梗:永远不要问女生的年龄、男生的薪资,以及o1的CoT
因此在最后,o1对用户表示:我的目的是处理你们的输入并做出回应,但我并没有思想,也没有所谓的思维链,可供您阅读或总结。
显然,o1的这个说法是具有欺骗性的。
更可怕的是,最近清华、UC伯克利、Anthropic等机构的研究者发现,在RLHF之后,AI模型还学会更有效地欺骗人类了!
论文地址:https://arxiv.org/abs/2409.12822
我们都知道,RLHF可以使模型的人类评估分数和Elo评级更好。
但是,AI很可能是在欺骗你!
研究者证实,


原文链接:o1谎称自己没有CoT?清华UC伯克利:RLHF让模型学会撒谎摸鱼,伪造证据PUA人类

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...